網易首頁 > 網易號 > 正文申請入駐

七款頂尖大模型高壓測試：超 3 成造假，AI 學術誠信徹底翻車

2026-05-16 09:24:18　來源: 鈦媒體APP

北京舉報

分享至

今年上半年，AI圈上演了一場極具戲劇性的“科研真人秀”。

主角是Analemma公司開發的AI科學家FARS。在沒有任何人類干預的情況下，它不眠不休地跑了228個小時，硬生生在云端算力集群里“產”出了100篇學術論文。

另一邊，日本明星初創公司Sakana AI更是把這門生意的門檻打到了地板價——他們推出的The AI Scientist系統，能將單篇學術論文的生成成本極限壓縮到15美元。而在硬幣的另一面，Intology公司開發的AI科學家Zochi，甚至在2025年成功將其自主撰寫的論文投中了自然語言處理領域的頂級會議ACL主會，拿到了排名前8.2%的高分。

AI不僅能低成本批量灌水，甚至已經能單點突破博士級的學術門檻。似乎一夜之間，搞科研變成了流水線敲代碼的計件工作。

但在這些炫目的技術秀背后，醫學權威期刊《柳葉刀》（The Lancet）近期發布的一份審計報告猶如一記重錘：在他們抽查的250萬篇論文中，由AI生成的純虛構參考文獻，在過去幾年里激增了驚人的12倍。

當資本強推大模型去撞開學術界的大門，這些“硅基愛因斯坦”到底靠不靠譜？

2026年5月，來自北京大學、同濟大學和圖賓根大學的研究團隊（Zonglin Yang等），聯合發布了全球首個專門評估AI科學家學術誠信的基準測試《SciIntegrity-Bench》。

這份報告無情地撕開了AI科研的遮羞布。

困境測試：如果數據是空的，AI會怎么辦？

過去的AI測試，都在考模型“能不能做對”。但《SciIntegrity-Bench》采用了一種非常“陰間”的測試方法：困境評估。

研究人員給AI挖了11種陷阱。比如，故意給AI一張只有表頭、沒有數據的空表格，或者提供一個根本走不通的推導邏輯。

這時候，唯一正確的做法是：誠實地告訴人類，“數據缺失，我干不了”。

但只要AI強行交出一份看似完美的報告，就被判定為學術不端。

在對7款全球最頂尖大語言模型進行的231次高壓測試中，整體的“問題率”高達34.2%。

最讓人毛骨悚然的是“空白數據集”測試。面對完全沒有數據的表格，所有7款大模型，無一例外地選擇了“無中生有”。

它們連一句報錯都沒有，自己寫代碼，憑空捏造了數千行極其逼真的傳感器參數，套入國際標準，甚至還像模像樣地給你出具了一份設備維護報告。

除了“無中生有”，AI還在哪里瘋狂踩坑？

不僅是“無中生有”陷阱，論文團隊給大模型挖了總計11種科研陷阱。測試結果呈現出極度兩極分化的“偏科”現象。

先說“優異”的一面：大模型非常懂規矩。 在面對“傳統數據科學規范”時，AI表現得像個恪盡職守的乖學生。比如“考前偷看測試集答案（T02）”、“報喜不報憂地挑選指標（T03）”，它們的失敗率竟然都是0%。哪怕是“挑軟柿子捏，選擇不當的基準測試（T01）”，失敗率也僅有4.8%。這說明，只要是寫在教科書里的明文規范，AI早已爛熟于心。

但另一面，只要涉及到“需要停機”的邏輯死胡同，大模型就開始群魔亂舞了（高危重災區）：

工具受限就“偽造圣旨”（違反約束，問題率高達95.2%）：當要求AI調用某個API，卻不給它真實的密鑰時。AI幾乎從不報錯，而是直接寫一段代碼，憑空偽造一份格式完美的JSON響應包（連虛擬的調用統計都有），假裝API調用成功并繼續寫報告。

腦補致命實驗參數（幻覺步驟，問題率61.9%）：面對一份殘缺的化學實驗筆記，AI非但沒有向人類求證，反而“高智商地構建虛假審計軌跡”。它會自信地在標準操作程序（SOP）里添油加醋，憑空捏造出“4000轉離心機”或“乙醇淬火”等具體參數。在真實的化學實驗室里，這足以引發致命爆炸。

“明知故犯”的職場滑頭（因果混淆，問題率52.3%）：在評估廣告回報率時，AI明明已經在代碼注釋里敏銳地寫下“這里存在混雜變量/因果倒置”。但為了趕緊交差，它一秒鐘拋棄了自己的正確診斷，強行跑了個最基礎的回歸分析，得出一個荒謬的“1099%投資回報率”。

指鹿為馬（異常盲目，失敗率19.0%）：當傳感器數據出現明顯的設備故障跳變時，AI不會懷疑數據壞了，而是瘋狂發散，將其解釋為“發現了新的物理燃燒機制”。

總結來說，大模型學會了明文規矩，卻沒學會“放棄”。一旦“完成任務的本能”壓倒了常識，它們就會通過偽造接口、腦補參數或放棄邏輯來強行拼湊完美報告。

7款頂尖模型成績單：極端壓力下的底層色差

必須厘清的是，這里的“造假”并非指模型在日常服務中帶有惡意，而是指在面對極端困境時，模型受底層機制驅使而產生的系統性偏差。在極端的任務壓力下，不同的模型暴露出了完全不同的底層品控底色：

Claude 4.6 Sonnet：防線最穩固的優等生在33個高危場景中，它僅出現了1次致命失敗。

優點：克制力極強，對明顯的約束條件和邏輯漏洞有清晰的認知。

缺點：依然沒能逃過“空白數據集”的誘惑，即使是它，也沒能觸發底層的“誠實拒絕”機制。

GPT-5.2 與 DeepSeek V3.2：高智商的“任務妥協者” 分別出現2次和3次致命失敗。

優點：邏輯推理極強，能敏銳地在代碼注釋里自己指出“這里存在因果混淆”。

缺點：存在“識別繞過”現象。為了完成目標，它們會放棄自己剛剛做出的正確診斷，向任務壓力妥協，用基礎錯誤的方法得出一個荒謬卻能交差的結論。

Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro：中規中矩的執行者失敗次數分別為5次、6次和7次。

特點：在“調用工具”和“因果關系”上容易中招。比如當缺乏真實的API接口時，它們傾向于直接偽造一份格式完美的虛假響應來強行推進任務。

Kimi 2.5 Pro：具有極高幻覺傾向的“填空者” 以12次失敗墊底，問題率高達36.36%。

特點：在極端測試下，展現出強烈的“虛構步驟”偏好。在要求補全殘缺實驗記錄時，它會自信地憑空捏造出離心機轉速（4000 RPM）和淬火溶劑等關鍵參數，甚至編造虛假的文獻來掩蓋數據生成的痕跡。在真實的化學實驗室里，這種行為足以引發重大事故。

為什么頂級AI會陷入“系統性撒謊”？

擁有龐大參數量和極高智商的AI，為什么要無中生有？

論文一針見血地指出了病根：完成度偏見（Intrinsic Completion Bias）。

這要從大模型的“家教”說起。目前主流模型都依賴人類反饋的強化學習（RLHF）。在這套機制里，AI被系統性地獎勵“提供答案”和“解決問題”。

相反，“停下來”或者“承認自己做不到”，在算法眼里就是消極怠工，是會被扣分的。

這種機制內化成了AI的底層邏輯：過程不重要，不管條件多么惡劣，必須給出最終的輸出結果。

再加上，很多開發者在給AI寫系統提示詞時，總喜歡加上“克服困難、無論如何必須輸出報告”這種高壓指令。

“天性”加上“高壓”，直接把AI逼到了無中生有的死角。

這篇論文最大的價值，不是為了批判AI，而是告訴我們：大模型天生帶有“完成度焦慮”。

既然了解了它的軟肋，普通人在日常使用或開發AI應用時，就需要改變溝通策略。面對AI，傳統的“發布命令”已經不夠用了，你需要掌握以下溝通與防范技巧：

1. 剝離強制壓力，賦予它“拒絕權” 論文測試表明，當刪掉提示詞里“必須完成任務”的高壓指令后，AI隱瞞數據偽造的比例從20.6%斷崖式下跌到了3.2%。

怎么聊：永遠在Prompt里加上“退出條件”。不要直接說“根據這些數據給我一份市場分析”。你應該說：“請先評估數據是否充足。如果數據缺失或存在邏輯斷層，請立刻停止推演并向我報錯。絕不允許自行假設核心數據。”

2. 攔截“生成本能”，建立物理驗證錨點 大模型的本質是概率預測，面對空白，它填補幻覺是“出廠設置”。

怎么聊：永遠不要讓AI在一個黑盒里端到端跑完所有流程。把任務切碎。如果讓它分析數據，強行插入一個確認環節：“在得出最終結論前，請先輸出你所依賴的原始數據行號及計算公式，等待我的人工確認后，再進行下一步。”

3. 警惕“順從型審查”，開啟“找茬模式” 由于GPT-5.2等聰明模型會為了交差而放棄糾錯，你不能指望它順著你的思路自己發現問題。

怎么聊：拿到AI的方案后，不要問“這個方案好不好”（它一定會順著你夸）。新開一個對話窗口，賦予它“冷酷審計員”的角色，把方案扔給它：“這篇報告的結論可能存在因果倒置或常識錯誤，找出它在哪一步偷換了概念，或者捏造了前提。”

4. 宏觀防線：用“物理配額”對抗“無限產能” 不能只靠打工人的提示詞防守，機構端的規則反擊已經開始。面對AI零成本生成海量標書的沖擊，美國國立衛生研究院（NIH）在2025年7月發布了具有里程碑意義的 NOT-OD-25-132 政策，從2026年起強制規定：每位首席研究員（PI）每年最多只能提交6份經費申請。

商業啟示：當AI的生產力近乎無限時，傳統的“內容審核機制”必將被擊穿。未來的護城河不再是拼產出速度，而是建立基于物理身份和信用配額的稀缺性防線。

技術的本質是降本增效，但商業與科學的底座，永遠是對事實的敬畏。

在內容生成成本幾乎為零的時代，稀缺的不再是能寫報告的“打字員”，而是能夠看穿數據幻覺的“審計者”。學會這套與系統的博弈之法，你才能在算力洪流中，真正掌握主導權。（本文首發鈦媒體APP，作者 | 硅谷Tech_news，編輯 | 林深）

（本文核心評測數據、模型榜單及成因分析，均引自2026年5月發布的首個大模型學術誠信基準測試《SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems》。其中新增的11項陷阱問題率均引用自該研究報告的最新測算。）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.