AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI

鏈新聞abmedia

賓州華頓商學院教授 Ethan Mollick 於 4/25 的 X 平台貼文提出一個對學術界具強烈衝擊的觀察:當前的 AI agent 已經能在沒有原始論文與沒有原始碼的情況下,僅憑公開的方法描述與資料,獨立重現複雜的學術研究結果。Mollick 進一步指出,這些 AI 重現的版本與原論文有出入時,「錯誤往往出在人類論文本身,而非 AI」。這是科研可重現性危機在生成式 AI 時代的一個實質轉折—過去需要昂貴人力才能進行的同行驗證,正在被 AI 大規模、低成本完成。

Claude 重現多篇論文,再以 GPT-5 Pro 雙重驗證

Mollick 在他的 OneUsefulThing 部落格與本次推文中,描述了他對 Claude 的具體實驗:把一篇學術論文交給 Claude,讓它打開存檔、整理檔案、把統計用的 STATA 程式碼自動轉換為 Python,再逐一執行論文中的所有發現。Claude 完成後,他再用 GPT-5 Pro 對同一份重現結果做第二輪檢查。多篇論文被以同樣的方式測試,結果普遍成功,僅在資料檔案過大或原始 replication data 本身有問題時受阻。

對學術界而言,這個流程過去通常需要研究助理花費數週甚至數月。Mollick 描述的時間規模是一個下午到一天,且運行成本只有商用 LLM API 的 token 費用。

錯誤多在人類原文,不是 AI

更具爭議性的是 Mollick 對「誰錯了」的判斷。他在推文中明言,當 AI 重現結果與原論文不一致時,多數情況不是 AI 弄錯,而是原論文有資料處理錯誤、模型誤用、或結論超出資料支撐的範圍。心理學、行為經濟學、管理學等社會科學近十年內已出現多次重大可重現性危機事件,最有名的是 2015 年 Open Science Collaboration 的大型重現研究,僅約 36% 的心理學論文結果能被獨立重現。AI agent 把這個檢驗過程從「需要人力配比」推到「可被普遍執行」的邊界。

學會仍禁 AI 入審稿,制度落後技術

Mollick 在另一則 4/25 推文中具體點名其所屬領域最大的學會 Academy of Management 仍明文禁止 AI 進入論文審稿流程。他引用既有研究指出,AI 審稿在準確度、一致性與偏見控制上已優於部分傳統人類審稿人,因此「禁止」這個立場可能反向加重既有審稿系統的失靈。這種制度與技術之間的落差,是接下來 1–2 年學術出版界、學會與資助機構都必須面對的政策議題。

對讀者而言,這場辯論並非局限於學界。當 AI agent 能即時驗證研究發現,產業界的研究引用、政策報告、財務決策中的學術根據,將進入一個「結論是否承受得住獨立 AI 重現」的新檢驗門檻。對應 Mollick 在另一則推文的補充,他認為政府是唯一能在工具強度持續上升時為這個檢驗機制定錨的單位—而政策設計的複雜度,將同步成為 AI 治理討論中相對被忽視的一條主軸。

這篇文章 AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

MoonPay 於週五在 Mastercard 網路推出 MoonAgents 卡

根據 The Block,MoonPay 於週五推出 MoonAgents Card——一款虛擬 Mastercard 借記卡,讓 AI 代理與使用者可直接從鏈上錢包支出穩定幣。該卡由 Monavate 發行;Monavate 是一家受監管的全球支付平台,也是 Mastercard 的主要會員,並且

GateNews1小時前

137 Ventures 在新資金中完成 $700M ,管理資產(AUM)達到 150 億美元

根據 ChainCatcher,早期投資 SpaceX 的 137 Ventures 近期完成了兩檔新基金的募資,總額超過 7 億美元,將其管理資產提高至超過 150 億美元。這筆新資本將用於投資 AI 代理、機器人以及太空推進

GateNews2小時前

Reddit 第 16% 飆升,因 Q2 展望強勁;蘋果面臨 Mac 缺貨,因 AI 需求超過供應

Reddit 的股價在週五美股開盤前上漲 16%,原因是該公司發布了高於預期的未來一季營收展望。日活躍訪客成長 17% 至 1.268 億,且全球每位用戶平均營收跳升 44%,由 AI 驅動

GateNews2小時前

Visa 於 5 月 1 日在香港推出可代理的就緒計畫(Agentic Ready Program),使 AI 代理付款成為可能

根據香港媒體《明報》,Visa 於 5 月 1 日在香港推出 Visa Agentic Ready 計畫,讓 AI 代理付款成為可能。該計畫運用代幣化、身分驗證、風險管理與授權機制。初始參與者包括

GateNews5小時前

OpenClaw 於 2026.4.29 版本在 4 月 29 日發布,將記憶體升級為具備關係追蹤的個人化 Wiki

根據 Beating,開源 AI 助手 OpenClaw(GitHub 367K 星)於 4 月 29 日發布了 v2026.4.29,標誌著其在兩天內的第二次更新。其記憶系統已從單純的檢索式回憶演進為個人化維基,使代理能夠自動建立角色檔案並追蹤 r

GateNews15小時前

谷歌執行長皮查伊透露利用 Gemini AI 洞悉人性建立更真誠的溝通

皮查伊表示在重要會議前,他用 Gemini 的觀點分析預測對方心理,藉此增進同理心與更真誠的溝通。AI 代理也能自動整理郵件、排程與摘要,使日常瑣事更高效。另以開放共創為核心的AI平台正在興起,Gemini 4 等開源技術降低門檻;同時強調建立 AI 治理框架,政界與社會需參與以解決網安、深偽與永續等挑戰。

鏈新聞abmedia17小時前
留言
0/400
暫無留言