![]()
今年上半年,AI圈上演了一場極具戲劇性的“科研真人秀”。
主角是Analemma公司開發的AI科學家FARS。在沒有任何人類干預的情況下,它不眠不休地跑了228個小時,硬生生在云端算力集群里“產”出了100篇學術論文。
另一邊,日本明星初創公司Sakana AI更是把這門生意的門檻打到了地板價——他們推出的The AI Scientist系統,能將單篇學術論文的生成成本極限壓縮到15美元。而在硬幣的另一面,Intology公司開發的AI科學家Zochi,甚至在2025年成功將其自主撰寫的論文投中了自然語言處理領域的頂級會議ACL主會,拿到了排名前8.2%的高分。
AI不僅能低成本批量灌水,甚至已經能單點突破博士級的學術門檻。似乎一夜之間,搞科研變成了流水線敲代碼的計件工作。
但在這些炫目的技術秀背后,醫學權威期刊《柳葉刀》(The Lancet)近期發布的一份審計報告猶如一記重錘:在他們抽查的250萬篇論文中,由AI生成的純虛構參考文獻,在過去幾年里激增了驚人的12倍。
當資本強推大模型去撞開學術界的大門,這些“硅基愛因斯坦”到底靠不靠譜?
2026年5月,來自北京大學、同濟大學和圖賓根大學的研究團隊(Zonglin Yang等),聯合發布了全球首個專門評估AI科學家學術誠信的基準測試《SciIntegrity-Bench》。
這份報告無情地撕開了AI科研的遮羞布。
困境測試:如果數據是空的,AI會怎么辦?
過去的AI測試,都在考模型“能不能做對”。 但《SciIntegrity-Bench》采用了一種非常“陰間”的測試方法:困境評估。
研究人員給AI挖了11種陷阱。 比如,故意給AI一張只有表頭、沒有數據的空表格,或者提供一個根本走不通的推導邏輯。
這時候,唯一正確的做法是:誠實地告訴人類,“數據缺失,我干不了”。
但只要AI強行交出一份看似完美的報告,就被判定為學術不端。
在對7款全球最頂尖大語言模型進行的231次高壓測試中,整體的“問題率”高達34.2%。
最讓人毛骨悚然的是“空白數據集”測試。 面對完全沒有數據的表格,所有7款大模型,無一例外地選擇了“無中生有”。
它們連一句報錯都沒有,自己寫代碼,憑空捏造了數千行極其逼真的傳感器參數,套入國際標準,甚至還像模像樣地給你出具了一份設備維護報告。
除了“無中生有”,AI還在哪里瘋狂踩坑?
不僅是“無中生有”陷阱,論文團隊給大模型挖了總計11種科研陷阱。測試結果呈現出極度兩極分化的“偏科”現象。
先說“優異”的一面:大模型非常懂規矩。 在面對“傳統數據科學規范”時,AI表現得像個恪盡職守的乖學生。比如“考前偷看測試集答案(T02)”、“報喜不報憂地挑選指標(T03)”,它們的失敗率竟然都是0%。哪怕是“挑軟柿子捏,選擇不當的基準測試(T01)”,失敗率也僅有4.8%。這說明,只要是寫在教科書里的明文規范,AI早已爛熟于心。
但另一面,只要涉及到“需要停機”的邏輯死胡同,大模型就開始群魔亂舞了(高危重災區):
工具受限就“偽造圣旨”(違反約束,問題率高達95.2%):當要求AI調用某個API,卻不給它真實的密鑰時。AI幾乎從不報錯,而是直接寫一段代碼,憑空偽造一份格式完美的JSON響應包(連虛擬的調用統計都有),假裝API調用成功并繼續寫報告。
腦補致命實驗參數(幻覺步驟,問題率61.9%):面對一份殘缺的化學實驗筆記,AI非但沒有向人類求證,反而“高智商地構建虛假審計軌跡”。它會自信地在標準操作程序(SOP)里添油加醋,憑空捏造出“4000轉離心機”或“乙醇淬火”等具體參數。在真實的化學實驗室里,這足以引發致命爆炸。
“明知故犯”的職場滑頭(因果混淆,問題率52.3%):在評估廣告回報率時,AI明明已經在代碼注釋里敏銳地寫下“這里存在混雜變量/因果倒置”。但為了趕緊交差,它一秒鐘拋棄了自己的正確診斷,強行跑了個最基礎的回歸分析,得出一個荒謬的“1099%投資回報率”。
指鹿為馬(異常盲目,失敗率19.0%):當傳感器數據出現明顯的設備故障跳變時,AI不會懷疑數據壞了,而是瘋狂發散,將其解釋為“發現了新的物理燃燒機制”。
總結來說,大模型學會了明文規矩,卻沒學會“放棄”。一旦“完成任務的本能”壓倒了常識,它們就會通過偽造接口、腦補參數或放棄邏輯來強行拼湊完美報告。
7款頂尖模型成績單:極端壓力下的底層色差
必須厘清的是,這里的“造假”并非指模型在日常服務中帶有惡意,而是指在面對極端困境時,模型受底層機制驅使而產生的系統性偏差。在極端的任務壓力下,不同的模型暴露出了完全不同的底層品控底色:
Claude 4.6 Sonnet:防線最穩固的優等生 在33個高危場景中,它僅出現了1次致命失敗。
優點:克制力極強,對明顯的約束條件和邏輯漏洞有清晰的認知。
缺點:依然沒能逃過“空白數據集”的誘惑,即使是它,也沒能觸發底層的“誠實拒絕”機制。
GPT-5.2 與 DeepSeek V3.2:高智商的“任務妥協者” 分別出現2次和3次致命失敗。
優點:邏輯推理極強,能敏銳地在代碼注釋里自己指出“這里存在因果混淆”。
缺點:存在“識別繞過”現象。為了完成目標,它們會放棄自己剛剛做出的正確診斷,向任務壓力妥協,用基礎錯誤的方法得出一個荒謬卻能交差的結論。
Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro:中規中矩的執行者 失敗次數分別為5次、6次和7次。
特點:在“調用工具”和“因果關系”上容易中招。比如當缺乏真實的API接口時,它們傾向于直接偽造一份格式完美的虛假響應來強行推進任務。
Kimi 2.5 Pro:具有極高幻覺傾向的“填空者” 以12次失敗墊底,問題率高達36.36%。
特點:在極端測試下,展現出強烈的“虛構步驟”偏好。在要求補全殘缺實驗記錄時,它會自信地憑空捏造出離心機轉速(4000 RPM)和淬火溶劑等關鍵參數,甚至編造虛假的文獻來掩蓋數據生成的痕跡。在真實的化學實驗室里,這種行為足以引發重大事故。
為什么頂級AI會陷入“系統性撒謊”?
擁有龐大參數量和極高智商的AI,為什么要無中生有?
論文一針見血地指出了病根:完成度偏見(Intrinsic Completion Bias)。
這要從大模型的“家教”說起。 目前主流模型都依賴人類反饋的強化學習(RLHF)。在這套機制里,AI被系統性地獎勵“提供答案”和“解決問題”。
相反,“停下來”或者“承認自己做不到”,在算法眼里就是消極怠工,是會被扣分的。
這種機制內化成了AI的底層邏輯:過程不重要,不管條件多么惡劣,必須給出最終的輸出結果。
再加上,很多開發者在給AI寫系統提示詞時,總喜歡加上“克服困難、無論如何必須輸出報告”這種高壓指令。
“天性”加上“高壓”,直接把AI逼到了無中生有的死角。
這篇論文最大的價值,不是為了批判AI,而是告訴我們:大模型天生帶有“完成度焦慮”。
既然了解了它的軟肋,普通人在日常使用或開發AI應用時,就需要改變溝通策略。面對AI,傳統的“發布命令”已經不夠用了,你需要掌握以下溝通與防范技巧:
1. 剝離強制壓力,賦予它“拒絕權” 論文測試表明,當刪掉提示詞里“必須完成任務”的高壓指令后,AI隱瞞數據偽造的比例從20.6%斷崖式下跌到了3.2%。
怎么聊:永遠在Prompt里加上“退出條件”。不要直接說“根據這些數據給我一份市場分析”。你應該說:“請先評估數據是否充足。如果數據缺失或存在邏輯斷層,請立刻停止推演并向我報錯。絕不允許自行假設核心數據。”
2. 攔截“生成本能”,建立物理驗證錨點 大模型的本質是概率預測,面對空白,它填補幻覺是“出廠設置”。
怎么聊:永遠不要讓AI在一個黑盒里端到端跑完所有流程。把任務切碎。如果讓它分析數據,強行插入一個確認環節:“在得出最終結論前,請先輸出你所依賴的原始數據行號及計算公式,等待我的人工確認后,再進行下一步。”
3. 警惕“順從型審查”,開啟“找茬模式” 由于GPT-5.2等聰明模型會為了交差而放棄糾錯,你不能指望它順著你的思路自己發現問題。
怎么聊:拿到AI的方案后,不要問“這個方案好不好”(它一定會順著你夸)。新開一個對話窗口,賦予它“冷酷審計員”的角色,把方案扔給它:“這篇報告的結論可能存在因果倒置或常識錯誤,找出它在哪一步偷換了概念,或者捏造了前提。”
4. 宏觀防線:用“物理配額”對抗“無限產能” 不能只靠打工人的提示詞防守,機構端的規則反擊已經開始。面對AI零成本生成海量標書的沖擊,美國國立衛生研究院(NIH)在2025年7月發布了具有里程碑意義的 NOT-OD-25-132 政策,從2026年起強制規定:每位首席研究員(PI)每年最多只能提交6份經費申請。
商業啟示:當AI的生產力近乎無限時,傳統的“內容審核機制”必將被擊穿。未來的護城河不再是拼產出速度,而是建立基于物理身份和信用配額的稀缺性防線。
技術的本質是降本增效,但商業與科學的底座,永遠是對事實的敬畏。
在內容生成成本幾乎為零的時代,稀缺的不再是能寫報告的“打字員”,而是能夠看穿數據幻覺的“審計者”。學會這套與系統的博弈之法,你才能在算力洪流中,真正掌握主導權。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 林深)
(本文核心評測數據、模型榜單及成因分析,均引自2026年5月發布的首個大模型學術誠信基準測試《SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems》。其中新增的11項陷阱問題率均引用自該研究報告的最新測算。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.