網易首頁 > 網易號 > 正文申請入駐

ChatGPT-5的"黑箱"邏輯，正在瓦解科學研究的根基

2026-05-09 16:23:01　來源: 萬物皆可科普2啊

北京舉報

分享至

科學界有個老笑話：一個物理學家、一個化學家和一個經濟學家被困在荒島上，面前有一罐豆子。物理學家說"我們可以計算拋物線軌跡把它砸開"，化學家說"我們可以用海水腐蝕金屬蓋"，經濟學家說"假設我們有一把開罐器"。

這個笑話諷刺的是經濟學家總愛做"假設"。但放在今天的AI研究里，這個笑話有了新版本——假設我們能復現那項研究。

OpenAI最近發布了ChatGPT-5。不是傳聞中的人工通用智能（AGI），而是一個更聰明的"編排器"模型。它會自動判斷：簡單請求用小模型快速處理，復雜任務換大模型慢慢算，需要時還會聯網查資料。對用戶來說，這解決了OpenAI長期以來的產品線混亂問題——4o、4-mini-high、3.5、4.1、4.1-mini，這些讓人頭大的版本號終于可以拋在腦后了。

但如果你是做學術研究的，這件事的性質完全不同。

它正在系統性地破壞科學研究的根基：可復現性。

一、可復現性：科學界的"底線"

先解釋一個基礎概念。可復現性（reproducibility）是科學研究的核心原則之一。邏輯很簡單：你用同樣的數據、同樣的方法，在相似的條件下操作，應該得到相同或高度相似的結果。這不是什么高深的哲學，這是科學能自我修正的前提。

傳統學術軟件完全遵循這個邏輯。假設SPSS從第32版開始改了線性回歸的計算方法，你要復現舊研究怎么辦？下載31版或更早版本，問題解決。版本號就是時間膠囊，封存了特定的計算邏輯。

大語言模型徹底打破了這套規則。

研究者Sampaio等人在2024年的工作中已經指出，大語言模型對學術研究的核心威脅在于透明性、可靠性和可復現性。而在這三者中，可復現性可能是最致命的——因為它直接動搖了"科學發現可以被驗證"這一基本前提。

二、ChatGPT-5：把"黑箱"又焊死了一層

ChatGPT-5的發布證明了一件事：可復現性從來不是OpenAI的優先事項。

設想一個場景。你收到一篇論文的審稿邀請，作者用GPT-3做了主題性定性分析。你的第一反應是什么？

只能拒稿。

因為GPT-3已經從OpenAI網站上消失了。不是"很難找"，是徹底沒有了。作者用了什么溫度參數、什么系統提示、哪個具體版本的權重——這些信息隨著模型的下線一起湮滅。你無法驗證，無法復現，甚至無法判斷作者的方法描述是否準確。

更隱蔽的問題是"靜默更新"。語言模型經常被更新、被"改進"，但版本號紋絲不動。GPT-4o在GPT-5發布前一天的版本，和發布當天的版本，已經不是同一個東西。Gemini 2.5 Pro內部可能已經迭代了至少三次，對外卻始終是同一個名字。開發者或許知道這是Gemini 2.5.1.3，但學術界無從得知。

這意味著什么？

假設你在2024年3月用GPT-4o跑了一批數據，得到了一組結果。2024年6月，另一個研究者想復現你的研究，下載了"同樣的"GPT-4o。但模型已經變了。權重調整了，安全對齊更新了，某些邊緣案例的處理邏輯改寫了。你們用的是同一個名字，卻是兩個不同的計算系統。

復現？無從談起。

三、"編排器"模式：把不確定性再乘以N

ChatGPT-5的新架構讓問題進一步惡化。

以前的模型至少是"一個"模型。你知道自己在和GPT-4對話，它的能力邊界、行為模式、常見幻覺類型，用久了大致能摸清楚。現在ChatGPT-5成了一個"調度員"——你輸入一句話，它內部決定：這個簡單，扔給輕量版；這個復雜，換深度思考模式；這個需要實時信息，聯網搜一下。

問題是：這個決策過程對用戶完全不可見。

你拿到一組研究結果，作者說"我們用ChatGPT-5分析了這些數據"。好，請問具體是哪個子模型處理的？溫度參數多少？有沒有聯網？如果聯網了，檢索到的是哪些網頁？這些網頁現在還能訪問嗎？

答案全部是：不知道。

傳統軟件的版本號至少告訴你"計算邏輯被凍結在某個狀態"。ChatGPT-5的編排器模式意味著，即使是"同一個"對話，不同時間、不同負載、甚至不同地理位置，都可能觸發不同的子模型組合。可復現性需要的"相同條件"，在這里成了一個無法定義的概念。

四、學術界的困境：用還是不用？

這不是"技術細節"，這是方法論危機。

定性研究已經開始系統性使用大語言模型做主題分析、編碼、情感判斷。這些研究的共同點是：方法部分寫著"我們用GPT-4進行了分析"，然后直接呈現結果。審稿人無法質疑，因為質疑需要復現；讀者無法驗證，因為驗證需要同樣的模型狀態。

科學論文變成了一種特殊的敘事文體——作者聲稱做了某事，但這件事是否在技術層面真實發生，永遠無法被獨立確認。

有人可能會說：那不用OpenAI的模型不就行了？用開源模型，自己部署，版本完全可控。

理論上可行。但現實是，GPT系列在通用能力上仍然領先，學術訓練數據里充斥著基于GPT的研究，期刊審稿人熟悉的是OpenAI的產品線。完全轉向開源，意味著在發表競爭中處于劣勢。這是個結構性困境，不是個人選擇能解決的。

五、沒有結論的結論

OpenAI當然沒有義務為學術研究定制產品。它的目標是打造有用的AI系統，版本迭代、模型下線、架構重構，都是商業公司的正常決策。

但學術界需要意識到：我們正在把研究的基礎設施，建立在一個設計上就反對"凍結狀態"的系統之上。每篇基于ChatGPT的論文，都是一封寫給未來的信——而收信人可能永遠無法打開它。

ChatGPT-5的編排器模式是個聰明的產品創新。它解決了用戶的選擇困難，優化了計算資源的分配，讓AI交互變得更"無縫"。

但"無縫"的代價是"無痕"。當科學最需要痕跡的時候，技術正在系統性地消除它們。

這不是OpenAI的錯，也不是學術界的錯。這是兩個系統——商業產品迭代與科學研究規范——在根本邏輯上的沖突。在找到調和方案之前，我們只能記錄這個沖突的存在，并在每篇使用大語言模型的論文里，誠實地寫下那個令人不安的注腳：

"本研究使用ChatGPT-X進行分析。該模型的具體版本、參數設置及內部狀態，已無法被復現。"

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.