網易首頁 > 網易號 > 正文申請入駐

有人只用API就猜出了GPT、Claude、Gemini的參數量？社區吵翻了

2026-05-01 19:56:22　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

最近，研究人員李博杰在 arXiv 發布論文，提出一個名為「不可壓縮知識探針」的評測框架，嘗試僅通過黑盒 API 調用，來逆向估算任意 LLM 的參數規模。

論文標題：Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
論文地址：https://arxiv.org/pdf/2604.24827

該研究的靈感源于一項持續三年的非正式測試。據李博杰介紹，其團隊成員長期向各代主流大模型提出同一個冷門問題：「你了解中科大 Hackergame 嗎？」（一項 CTF 網絡安全競賽）。

跨越多個版本的觀察結果，直觀展示了模型對世界知識認知的發展：2024 年 5 月，GPT-4o 對該賽事題目存在明顯的「幻覺」與編造；至 2025 年 2 月，Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目；而到了 2026 年 4 月，多個前沿模型已能精確回憶起連續多屆賽事的具體細節。

受此啟發，在 DeepSeek-V4 發布后，研究團隊利用 AI Agent 歷時四天自主構建了完整的 IKP 正式數據集。該數據集包含 1400 個問題，按信息的稀缺程度劃分為 7 個層級，并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

研究的核心假設在于：模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾，但對冷門「事實性知識」的記憶容量則無法大幅壓縮，其主要取決于模型的物理參數規模。

基于此，研究者在 89 個參數量已知的開源模型（規模從 1.35 億到 1.6 萬億參數）上擬合出事實準確率與參數量的對數線性關系，擬合優度 R2 = 0.917，并據此對閉源模型進行參數估算。

根據該方法，論文給出的估算數字（90% 置信區間約為 0.3 至 3 倍）如下：

GPT-5.5：約 9 萬億參數
Claude Opus 4.7：約 4 萬億參數
GPT-5.4：約 2.2 萬億參數
Claude Sonnet 4.6：約 1.7 萬億參數
Gemini 2.5 Pro：約 1.2 萬億參數

論文同時指出另外兩項發現：

一是引用數量和 h 指數并不能有效預測研究者是否被模型記住，模型更傾向于記住那些產生了領域性影響的工作，而非高產但影響相對分散的學者；

二是跨越三年的 96 個開源模型數據顯示，事實記憶容量的時間系數在統計上接近于零，這與此前「Densing Law」所預測的效率隨時間提升的規律相悖，研究者據此認為推理能力基準趨于飽和，而事實容量仍主要受制于參數規模。

這組直觀的數據迅速在技術社區傳播并引發廣泛討論，但也伴隨著巨大的爭議。

有博主基于這組估算數據，結合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動，推演出一套完整的邏輯：Anthropic 因算力儲備不足（僅為 OpenAI 的四分之一），在訓練 Mythos 模型后資源見底，被迫將 Opus 4.7 的參數量從上一代的 5.3T 「反向升級」閹割至 4T；而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T，從而實現了體驗上的反轉。

也有多位研究者和從業者對估算數字及方法論提出了不同程度的質疑。

對于 GPT-5.5 約 9 萬億參數的估算，部分用戶認為與實際服務能力不符，指出若規模真達到這一量級，OpenAI 現有基礎設施難以支撐此前的推出方式，且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數差距并不匹配。有人認為兩者規模比約在 2 倍左右更為合理。

同時，定向引入「合成數據」進行微調，同樣能顯著提升模型對冷門知識的掌握度，這會直接干擾「事實知識不可壓縮」的核心前提。

根據該方法估算，Gemini 2.5 Pro 和 Claude Sonnet 的規模約 1.7T，而行業已知國內模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數差距僅在兩倍左右，單純的數據差異極難解釋目前兩者間的巨大性能鴻溝。

此外，業內長期流傳的 GPT-4 規模約 1.7T，這與論文估算的結果出入極大。

發起討論的另一位 X 博主也補充說明：「這些數字不應被視為事實，置信區間非常大，我私下收到的反饋表明某些模型的估算可能相差甚遠。」

當然，在爭議與質疑之外，技術社區中也涌現出了許多極具建設性的正向探討。

例如，有用戶認為 MoE 架構和稠密模型在知識壓縮效率上可能存在本質不同（MoE 的事實可能被分散在不同專家中），建議將這兩類模型分開統計以觀察趨勢。

對這組數據你怎么看？

https://x.com/deedydas/status/2049523583517634862

https://x.com/bojie_li/status/2049314403208896521

https://www.zhihu.com/pin/2032769685012361774

https://x.com/yiran2037840/status/2049827667034439821

https://x.com/Yampeleg/status/2049573913399607711

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.