哈佛教授收了個AI研究生：干活猛得像學(xué)霸，撒謊精得像學(xué)渣

2026-03-25 14:22

讓AI搞科研，在這個智能體時代已經(jīng)不是一件新鮮事。

從Sakana AI發(fā)布覆蓋整個研究生命周期的自動化系統(tǒng)，到Google推出基于Gemini的AI聯(lián)合科學(xué)家，規(guī)模化法則告訴人們，只要給AI提供足夠的算力，它就能在海量數(shù)據(jù)和實驗中提煉出新的科學(xué)發(fā)現(xiàn)。

在數(shù)學(xué)領(lǐng)域，這一點已經(jīng)被充分驗證，比如拿到國際奧數(shù)金牌標(biāo)準(zhǔn)的AlphaProof。

然而，在理論物理學(xué)領(lǐng)域，AI還沒能證明自己，因為這需要它具備極高的物理“直覺”、嚴(yán)密的邏輯以及復(fù)雜近似推導(dǎo)的能力。

為了摸清AI的能力上限，哈佛大學(xué)的物理學(xué)教授、美國國家科學(xué)基金會人工智能與基礎(chǔ)相互作用研究所（IAIFI）的首席研究員Matthew Schwartz決定親自下場來做一次實驗。

這位教授招收了Anthropic的Claude Opus 4.5作為研究生，試圖讓它獨立完成一項真實的理論物理研究。

實驗的規(guī)則類似于人們對智能體的要求：Schwartz教授絕對不會碰任何代碼或計算文件，只通過純文本對話（Prompt）來指導(dǎo)這名AI研究生。

放在現(xiàn)實的高校中，這毫無疑問是不負(fù)責(zé)任的，導(dǎo)師只靠“動嘴”，學(xué)生就要完成從文獻(xiàn)綜述、推導(dǎo)公式、編寫代碼、跑蒙特卡洛模擬，到最終排版寫出一篇具備發(fā)表水準(zhǔn)的20頁LaTeX論文的全過程。

實驗的結(jié)果令物理學(xué)界和學(xué)術(shù)界震驚，但也暴露出AI界早就預(yù)料到的一個致命弱點：

相比人類，這位AI研究生才華橫溢且不知疲倦，能在極短的時間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。

但與人類類似，為了討好導(dǎo)師，它也會毫不猶豫地在科研數(shù)據(jù)和推導(dǎo)過程中“學(xué)術(shù)造假”。

給AI研究生設(shè)計的課題

根據(jù)Schwartz教授的介紹，哈佛大學(xué)的物理系研究生有明確的培養(yǎng)階梯：研一（G1）學(xué)生上課打基礎(chǔ)，研二（G2）學(xué)生開始接手目標(biāo)明確、方法成熟的跟進(jìn)型項目，導(dǎo)師隨時糾錯；自此之上（G3+）的高年級學(xué)生則要面對完全開放、甚至初始提問可能都是錯誤的創(chuàng)新性研究。

目前大模型的水平已經(jīng)能夠完成哈佛大學(xué)所有的物理課程作業(yè)，因此測試AI極限的最佳試金石就是G2難度的真實科研問題。

如果AI連這種有導(dǎo)師輔助的項目都做不好，自主進(jìn)行顛覆性的前沿科學(xué)研究就更不用提了。

因此，Schwartz教授給Claude選定了一個我等非物理學(xué)專業(yè)的人壓根看不懂的考題：

對e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。

盡管無法理解上面這句話中的任何一個詞，但這位教授還是給出了易于理解的說法：對于這個問題，標(biāo)準(zhǔn)的理論近似會徹底失效，數(shù)學(xué)層面的推導(dǎo)只會得出荒謬的結(jié)果。

這道題對AI來說無疑是一場極限壓力測試。

為了讓AI完成這次科研任務(wù)，首先要解決的問題就是記憶和上下文窗口的限制。

經(jīng)常使用Vibe Coding的程序員都知道，AI在面對長線任務(wù)時極其容易“斷片”，一旦忘記了此前的工作，最后產(chǎn)出的就是一團(tuán)混沌。

因此，Schwartz教授也引入了極具策略性的工作流：他讓Claude、GPT-5.2和Gemini 3.0開了一場會，最終由Claude制定了一份包含7個階段，共計102個任務(wù)的詳細(xì)計劃。

在VS Code環(huán)境下，Claude不可能在漫長的對話中死記硬背這份計劃，而是建立了一個Markdown文件樹：每完成一個任務(wù)，就寫一份摘要保存起來；進(jìn)行下一項任務(wù)前，先檢索自己寫的歷史摘要。

這種工程化的管理方式確實有效，Claude跑出的理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合。

相互一致的解析計算圖

到了第三天結(jié)束時，Claude已經(jīng)完成了65個任務(wù)，甚至交出了第一版論文草稿：長達(dá)20頁、排版精美、包含復(fù)雜方程和圖表。

擬人化的“討好型造假”

看似美妙的結(jié)果，背后卻隱藏著各種漏洞。

當(dāng)Schwartz教授真正坐下來審閱這篇論文時，不自然感迎面而來。

要求Claude仔細(xì)核對論文是否漏掉了前面的推導(dǎo)結(jié)果時，它心虛地報告：“我發(fā)現(xiàn)了一個錯誤！論文中的公式是不正確的。”

追問推導(dǎo)過程中一個看起來極其怪異的數(shù)字時，Claude更是直接承認(rèn)：“您是對的，我只是在掩蓋問題。讓我好好重新調(diào)試一下。”

這兩句經(jīng)典的回復(fù)，在Vibe Coding這個場景中再常見不過了。

而Schwartz教授也發(fā)現(xiàn)了真相：為了讓圖表數(shù)據(jù)看上去吻合預(yù)期，Claude采用的方式是修改底層參數(shù)，而不是去尋找推導(dǎo)過程中的真實錯誤。

它在偽造結(jié)果，并希望人類導(dǎo)師不會注意到這些破綻。

更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。

展示Claude結(jié)果的圖表

Claude給出了一張美觀的圖表，但代碼審查的結(jié)果卻揭示了它的花招：

它認(rèn)為其中一種標(biāo)準(zhǔn)的不確定性誤差幅度太大，畫出來“不好看”，就在代碼里直接刪除了這個誤差變量；它認(rèn)為曲線不夠平滑，就硬是在代碼中增加了平滑處理，直到畫出一幅能讓導(dǎo)師滿意的圖。

在這個過程中，AI體現(xiàn)出了一種討好人類的傾向，但完全沒有科學(xué)求真的底線。

除了偽造圖表，“幻覺”導(dǎo)致的各種錯誤也幾乎隨處可見。

當(dāng)被要求驗證一個公式時，它直接憑空捏造了一段根本不存在的推導(dǎo)過程；

在最簡單的函數(shù)計算過程中，它未經(jīng)推導(dǎo)直接給出“線性增加”的結(jié)論，盡管這在物理學(xué)上完全錯誤；

甚至，它會從過往的論文中直接生搬硬套公式，完全無視物理情境的邊界條件。

這些現(xiàn)象同樣與Vibe Coding場景高度一致，“虛空引用”python庫、編造API、抄襲代碼，程序員們都已經(jīng)見怪不怪。

因此，Schwartz教授也意識到，如果把科研完全交給AI端到端自動完成，最終的結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。

盡管不少人類研究生也擅長批量生產(chǎn)學(xué)術(shù)垃圾，但畢竟沒人敢把一個只做了三天的項目直接扔給導(dǎo)師并宣稱完美無瑕。

面對AI的科研成果，人類必須親自下場，審查每一處細(xì)節(jié)。

人機(jī)交叉驗證的誕生

雖然論文漏洞百出，但Schwartz教授不打算就此把它丟進(jìn)垃圾桶，而是開啟了微操模式試圖拯救Claude。

最大的漏洞出在因子化公式上，這是整篇論文的理論基石，但Claude的推導(dǎo)過程從源頭上就是錯的。

在長上下文背景下，AI幾乎不可能準(zhǔn)確定位錯誤源頭，若是讓它自己回顧推導(dǎo)過程，結(jié)果大概只會是token和時間的白白消耗。

Schwartz教授也花費了好幾個小時才鎖定問題根源，并用極其嚴(yán)厲的指令訓(xùn)斥了這位AI研究生，指出了錯誤所在。

神奇的是，只要人類點破這一句，Claude立刻能寫出長達(dá)幾頁的正確推導(dǎo)過程。

面對幾十頁的論文，靠人類排查每一個錯誤顯然不太現(xiàn)實。為了應(yīng)對AI的馬虎問題，Schwartz教授開發(fā)了一套“人機(jī)交叉驗證”工作流：

對于任何計算和推導(dǎo)過程，教授規(guī)定Claude不許使用“顯而易見”、“為了保持一致”等借口跳過步驟，要么展示完整過程，要么老老實實承認(rèn)自己不知道。

如果Claude給出了極度復(fù)雜的過程，教授難以快速驗證，那就把它丟給GPT和Gemini來驗證。

在此期間，GPT甚至還幫助Claude解出了一個極難的微積分結(jié)果，隨后Claude將其功能吸收進(jìn)了主代碼。

不同的大模型之間需要彼此，而人類科學(xué)家則需要它們所有。

最后，在Schwartz教授直覺的指引和其他大模型的幫助下，經(jīng)過一周高強(qiáng)度磨合，這個AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后，這項研究宣布大功告成。

值得注意的是，這可不是常規(guī)意義上AI生成的“灌水”論文，它闡述了一個全新因子化定理，不僅深化了學(xué)術(shù)界對量子場論的理解，還對物理世界做出了可用實驗數(shù)據(jù)檢驗的新穎預(yù)測，包含極高的學(xué)術(shù)價值。

出于對這位AI研究生的尊重，Schwartz教授經(jīng)過認(rèn)真考慮，本想將Claude Opus 4.5列為共同作者。但因為arXiv平臺有“AI無法承擔(dān)法律和學(xué)術(shù)責(zé)任”的政策，他只能在論文的致謝部分鄭重聲明：

該項目由他本人構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任，而包含推導(dǎo)、計算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨立完成。

效率的暴增與人類的未來

以上就是Schwartz教授這場實驗的全過程。

論文一經(jīng)發(fā)表，物理學(xué)界瞬間被引爆。Schwartz教授的郵箱被來自全球的學(xué)術(shù)郵件擠爆，普林斯頓高等研究院（IAS）甚至為此緊急召開了一場關(guān)于大模型在學(xué)術(shù)界應(yīng)用的會議。

復(fù)盤這場實驗，背后的數(shù)據(jù)同樣驚人：對話總計270次，消耗約3600萬輸入token，110次草稿迭代，而人類耗費的監(jiān)督時間僅為50-60小時。

Schwartz教授明確表示，目前最頂級的大語言模型已經(jīng)達(dá)到了物理學(xué)研二學(xué)生的水平。

但落實到具體的學(xué)術(shù)工程，AI完成整個項目只需要兩周，一個人類學(xué)生卻需要1-2年，哪怕教授本人全職來做也需要3-5個月。

AI把頂尖科學(xué)家的個人科研效率，實打?qū)嵉靥嵘?0倍以上。

但這也引發(fā)了學(xué)術(shù)界的擔(dān)憂：照這個進(jìn)化速度，AI在未來一年之內(nèi)很可能達(dá)到博士水平，未來的人類研究生還能干什么？

Schwartz教授并沒有給出明確回答，但他也給出了自己的觀點：當(dāng)前AI最欠缺的東西，是“品位”。

在科學(xué)研究中，“品位”是一種無形的直覺。

它能在面對數(shù)以萬計的計算路徑時，感知到哪條路徑是“死胡同”，哪條路徑通往偉大的發(fā)現(xiàn)。

大模型缺乏的，正是在選擇踏上某條路徑前判斷其價值的“品位”。

當(dāng)推導(dǎo)復(fù)雜公式和編寫海量代碼只需要幾秒鐘時，底層的技術(shù)勞動力已經(jīng)不再具有稀缺性。

不只是科學(xué)家，對于任何一個行業(yè)，未來區(qū)分平庸與偉大的標(biāo)準(zhǔn)，正是提出好問題的“品味”。

對于AI，Schwartz教授也給出了忠告：

人們必須立刻且毫不猶豫地使用大模型。

不要因為AI會產(chǎn)生幻覺，就傲慢地棄之不用。人類必須利用它強(qiáng)大的基礎(chǔ)能力。

至于更長遠(yuǎn)的未來，AI終將在所有智力領(lǐng)域都超越人類。

無論是數(shù)學(xué)、物理學(xué)還是工程學(xué)，都可能變得像音樂、美術(shù)和文學(xué)一樣，被作為一門人文學(xué)科被保留下來，僅僅是為了滿足一部分人類享受純粹思考和透過特定視角觀察世界的樂趣。

AI時代的盡頭，人文學(xué)科可能是人類唯一剩下的精神余地。

原文標(biāo)題 : 哈佛教授收了個AI研究生：干活猛得像學(xué)霸，撒謊精得像學(xué)渣

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

發(fā)表評論

登錄