科學界有個老笑話:一個物理學家、一個化學家和一個經濟學家被困在荒島上,面前有一罐豆子。物理學家說"我們可以計算拋物線軌跡把它砸開",化學家說"我們可以用海水腐蝕金屬蓋",經濟學家說"假設我們有一把開罐器"。
這個笑話諷刺的是經濟學家總愛做"假設"。但放在今天的AI研究里,這個笑話有了新版本——假設我們能復現那項研究。
![]()
OpenAI最近發布了ChatGPT-5。不是傳聞中的人工通用智能(AGI),而是一個更聰明的"編排器"模型。它會自動判斷:簡單請求用小模型快速處理,復雜任務換大模型慢慢算,需要時還會聯網查資料。對用戶來說,這解決了OpenAI長期以來的產品線混亂問題——4o、4-mini-high、3.5、4.1、4.1-mini,這些讓人頭大的版本號終于可以拋在腦后了。
但如果你是做學術研究的,這件事的性質完全不同。
它正在系統性地破壞科學研究的根基:可復現性。
一、可復現性:科學界的"底線"
先解釋一個基礎概念。可復現性(reproducibility)是科學研究的核心原則之一。邏輯很簡單:你用同樣的數據、同樣的方法,在相似的條件下操作,應該得到相同或高度相似的結果。這不是什么高深的哲學,這是科學能自我修正的前提。
傳統學術軟件完全遵循這個邏輯。假設SPSS從第32版開始改了線性回歸的計算方法,你要復現舊研究怎么辦?下載31版或更早版本,問題解決。版本號就是時間膠囊,封存了特定的計算邏輯。
大語言模型徹底打破了這套規則。
研究者Sampaio等人在2024年的工作中已經指出,大語言模型對學術研究的核心威脅在于透明性、可靠性和可復現性。而在這三者中,可復現性可能是最致命的——因為它直接動搖了"科學發現可以被驗證"這一基本前提。
二、ChatGPT-5:把"黑箱"又焊死了一層
ChatGPT-5的發布證明了一件事:可復現性從來不是OpenAI的優先事項。
設想一個場景。你收到一篇論文的審稿邀請,作者用GPT-3做了主題性定性分析。你的第一反應是什么?
只能拒稿。
因為GPT-3已經從OpenAI網站上消失了。不是"很難找",是徹底沒有了。作者用了什么溫度參數、什么系統提示、哪個具體版本的權重——這些信息隨著模型的下線一起湮滅。你無法驗證,無法復現,甚至無法判斷作者的方法描述是否準確。
更隱蔽的問題是"靜默更新"。語言模型經常被更新、被"改進",但版本號紋絲不動。GPT-4o在GPT-5發布前一天的版本,和發布當天的版本,已經不是同一個東西。Gemini 2.5 Pro內部可能已經迭代了至少三次,對外卻始終是同一個名字。開發者或許知道這是Gemini 2.5.1.3,但學術界無從得知。
這意味著什么?
假設你在2024年3月用GPT-4o跑了一批數據,得到了一組結果。2024年6月,另一個研究者想復現你的研究,下載了"同樣的"GPT-4o。但模型已經變了。權重調整了,安全對齊更新了,某些邊緣案例的處理邏輯改寫了。你們用的是同一個名字,卻是兩個不同的計算系統。
復現?無從談起。
三、"編排器"模式:把不確定性再乘以N
ChatGPT-5的新架構讓問題進一步惡化。
以前的模型至少是"一個"模型。你知道自己在和GPT-4對話,它的能力邊界、行為模式、常見幻覺類型,用久了大致能摸清楚。現在ChatGPT-5成了一個"調度員"——你輸入一句話,它內部決定:這個簡單,扔給輕量版;這個復雜,換深度思考模式;這個需要實時信息,聯網搜一下。
問題是:這個決策過程對用戶完全不可見。
你拿到一組研究結果,作者說"我們用ChatGPT-5分析了這些數據"。好,請問具體是哪個子模型處理的?溫度參數多少?有沒有聯網?如果聯網了,檢索到的是哪些網頁?這些網頁現在還能訪問嗎?
答案全部是:不知道。
傳統軟件的版本號至少告訴你"計算邏輯被凍結在某個狀態"。ChatGPT-5的編排器模式意味著,即使是"同一個"對話,不同時間、不同負載、甚至不同地理位置,都可能觸發不同的子模型組合。可復現性需要的"相同條件",在這里成了一個無法定義的概念。
四、學術界的困境:用還是不用?
這不是"技術細節",這是方法論危機。
定性研究已經開始系統性使用大語言模型做主題分析、編碼、情感判斷。這些研究的共同點是:方法部分寫著"我們用GPT-4進行了分析",然后直接呈現結果。審稿人無法質疑,因為質疑需要復現;讀者無法驗證,因為驗證需要同樣的模型狀態。
科學論文變成了一種特殊的敘事文體——作者聲稱做了某事,但這件事是否在技術層面真實發生,永遠無法被獨立確認。
有人可能會說:那不用OpenAI的模型不就行了?用開源模型,自己部署,版本完全可控。
理論上可行。但現實是,GPT系列在通用能力上仍然領先,學術訓練數據里充斥著基于GPT的研究,期刊審稿人熟悉的是OpenAI的產品線。完全轉向開源,意味著在發表競爭中處于劣勢。這是個結構性困境,不是個人選擇能解決的。
五、沒有結論的結論
OpenAI當然沒有義務為學術研究定制產品。它的目標是打造有用的AI系統,版本迭代、模型下線、架構重構,都是商業公司的正常決策。
但學術界需要意識到:我們正在把研究的基礎設施,建立在一個設計上就反對"凍結狀態"的系統之上。每篇基于ChatGPT的論文,都是一封寫給未來的信——而收信人可能永遠無法打開它。
ChatGPT-5的編排器模式是個聰明的產品創新。它解決了用戶的選擇困難,優化了計算資源的分配,讓AI交互變得更"無縫"。
但"無縫"的代價是"無痕"。當科學最需要痕跡的時候,技術正在系統性地消除它們。
這不是OpenAI的錯,也不是學術界的錯。這是兩個系統——商業產品迭代與科學研究規范——在根本邏輯上的沖突。在找到調和方案之前,我們只能記錄這個沖突的存在,并在每篇使用大語言模型的論文里,誠實地寫下那個令人不安的注腳:
"本研究使用ChatGPT-X進行分析。該模型的具體版本、參數設置及內部狀態,已無法被復現。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.