<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      有人只用API就猜出了GPT、Claude、Gemini的參數量?社區吵翻了

      0
      分享至



      機器之心編輯部

      最近,研究人員李博杰在 arXiv 發布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調用,來逆向估算任意 LLM 的參數規模。



      • 論文標題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
      • 論文地址:https://arxiv.org/pdf/2604.24827

      該研究的靈感源于一項持續三年的非正式測試。據李博杰介紹,其團隊成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項 CTF 網絡安全競賽)。



      跨越多個版本的觀察結果,直觀展示了模型對世界知識認知的發展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續多屆賽事的具體細節。

      受此啟發,在 DeepSeek-V4 發布后,研究團隊利用 AI Agent 歷時四天自主構建了完整的 IKP 正式數據集。該數據集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

      研究的核心假設在于:模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾,但對冷門「事實性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數規模。

      基于此,研究者在 89 個參數量已知的開源模型(規模從 1.35 億到 1.6 萬億參數)上擬合出事實準確率與參數量的對數線性關系,擬合優度 R2 = 0.917,并據此對閉源模型進行參數估算。

      根據該方法,論文給出的估算數字(90% 置信區間約為 0.3 至 3 倍)如下:

      • GPT-5.5:約 9 萬億參數
      • Claude Opus 4.7:約 4 萬億參數
      • GPT-5.4:約 2.2 萬億參數
      • Claude Sonnet 4.6:約 1.7 萬億參數
      • Gemini 2.5 Pro:約 1.2 萬億參數

      論文同時指出另外兩項發現:

      一是引用數量和 h 指數并不能有效預測研究者是否被模型記住,模型更傾向于記住那些產生了領域性影響的工作,而非高產但影響相對分散的學者;

      二是跨越三年的 96 個開源模型數據顯示,事實記憶容量的時間系數在統計上接近于零,這與此前「Densing Law」所預測的效率隨時間提升的規律相悖,研究者據此認為推理能力基準趨于飽和,而事實容量仍主要受制于參數規模。

      這組直觀的數據迅速在技術社區傳播并引發廣泛討論,但也伴隨著巨大的爭議。



      有博主基于這組估算數據,結合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實現了體驗上的反轉。



      也有多位研究者和從業者對估算數字及方法論提出了不同程度的質疑。

      對于 GPT-5.5 約 9 萬億參數的估算,部分用戶認為與實際服務能力不符,指出若規模真達到這一量級,OpenAI 現有基礎設施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數差距并不匹配。有人認為兩者規模比約在 2 倍左右更為合理。



      同時,定向引入「合成數據」進行微調,同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實知識不可壓縮」的核心前提。



      根據該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規模約 1.7T,而行業已知國內模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數差距僅在兩倍左右,單純的數據差異極難解釋目前兩者間的巨大性能鴻溝。



      此外,業內長期流傳的 GPT-4 規模約 1.7T,這與論文估算的結果出入極大。



      發起討論的另一位 X 博主也補充說明:「這些數字不應被視為事實,置信區間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠。」



      當然,在爭議與質疑之外,技術社區中也涌現出了許多極具建設性的正向探討。

      例如,有用戶認為 MoE 架構和稠密模型在知識壓縮效率上可能存在本質不同(MoE 的事實可能被分散在不同專家中),建議將這兩類模型分開統計以觀察趨勢。







      對這組數據你怎么看?

      https://x.com/deedydas/status/2049523583517634862

      https://x.com/bojie_li/status/2049314403208896521

      https://www.zhihu.com/pin/2032769685012361774

      https://x.com/yiran2037840/status/2049827667034439821

      https://x.com/Yampeleg/status/2049573913399607711

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “這真不是AI?”中南大學高考祝福視頻火了,出鏡男生太帥被質疑

      “這真不是AI?”中南大學高考祝福視頻火了,出鏡男生太帥被質疑

      妍妍教育日記
      2026-05-14 09:56:16
      諸葛亮為何非要殺魏延?如果魏延不死,蜀漢會怎樣

      諸葛亮為何非要殺魏延?如果魏延不死,蜀漢會怎樣

      老謝談史
      2026-05-14 02:32:53
      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      垚垚分享健康
      2026-05-04 19:15:04
      世乒賽奪冠后,孫穎莎陪練宣布退役,曾效力八一隊,倆人是好閨蜜

      世乒賽奪冠后,孫穎莎陪練宣布退役,曾效力八一隊,倆人是好閨蜜

      阿鳧愛吐槽
      2026-05-13 18:53:11
      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      辣媒專欄記錄
      2026-05-11 08:21:59
      含金量,福登是英超史上無點球參與進球第二人

      含金量,福登是英超史上無點球參與進球第二人

      懂球帝
      2026-05-14 06:13:08
      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      每日經濟新聞
      2026-05-13 21:30:06
      奧運冠軍黃雅瓊現狀:在浙江老家生活,老公也是冠軍,成大學院長

      奧運冠軍黃雅瓊現狀:在浙江老家生活,老公也是冠軍,成大學院長

      翰飛觀事
      2026-05-14 09:58:28
      葉珂直播坦言與黃曉明生女后草率分手,男方私生活成關鍵

      葉珂直播坦言與黃曉明生女后草率分手,男方私生活成關鍵

      李虰手工制作
      2026-05-14 00:56:02
      鄭裕彤當年在恒大身上賺了多少錢?

      鄭裕彤當年在恒大身上賺了多少錢?

      擔撲
      2026-03-29 14:45:27
      《給阿嬤的情書》破億,史上“最寒酸”贊助商贏麻了

      《給阿嬤的情書》破億,史上“最寒酸”贊助商贏麻了

      首席品牌觀察
      2026-05-12 14:44:48
      她曾經玩過14位男星,人前玉女,人后“欲女”,47歲如今還是單身

      她曾經玩過14位男星,人前玉女,人后“欲女”,47歲如今還是單身

      喜歡歷史的阿繁
      2026-05-13 17:30:17
      印度3000萬蒙古人后裔現狀:罩著高種姓身份光環,過得不盡人意

      印度3000萬蒙古人后裔現狀:罩著高種姓身份光環,過得不盡人意

      談史論天地
      2026-04-18 16:45:03
      震驚!網傳番禺老板找做飯的小姐姐,15000元月薪,注明不需陪睡

      震驚!網傳番禺老板找做飯的小姐姐,15000元月薪,注明不需陪睡

      火山詩話
      2026-05-13 08:59:22
      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      另子維愛讀史
      2026-05-14 07:34:57
      央劇《主角》播出僅1天,沒想到董宇輝竟因一個舉動,直接火出圈

      央劇《主角》播出僅1天,沒想到董宇輝竟因一個舉動,直接火出圈

      翰飛觀事
      2026-05-12 19:28:53
      銷量暴跌,車市不妙!德媒:中國人都不買車了!

      銷量暴跌,車市不妙!德媒:中國人都不買車了!

      道德經
      2026-05-14 00:51:36
      只差13秒奪冠!本托黃油手重演,利雅得勝利距離冠軍缺了什么?

      只差13秒奪冠!本托黃油手重演,利雅得勝利距離冠軍缺了什么?

      落夜足球
      2026-05-13 21:32:41
      跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

      跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

      馬拉松跑步健身
      2026-04-26 21:41:40
      江蘇1106萬退休人員養老金梯隊:月領8000元,到底屬于什么水平?

      江蘇1106萬退休人員養老金梯隊:月領8000元,到底屬于什么水平?

      三農老歷
      2026-05-13 17:07:22
      2026-05-14 10:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12988文章數 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克:只有我和黃仁勛坐上了"空軍一號"

      頭條要聞

      牛彈琴:韓國兩大巨頭雙雙爆賺上萬億 但大麻煩也來了

      頭條要聞

      牛彈琴:韓國兩大巨頭雙雙爆賺上萬億 但大麻煩也來了

      體育要聞

      國內雙冠王,國米第三次同一賽季奪得意甲和意杯冠軍

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      片仔癀依舊困在“片仔癀”

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      家居
      房產
      游戲
      旅游
      軍事航空

      家居要聞

      內在自敘,無域有方

      房產要聞

      重磅!2026海南中招實施細則來了

      《暗黑4》新職業組隊被狂踢:移動核彈 特效太瞎眼!

      旅游要聞

      云南綠春:臘姑梯田萬畝稻苗如綠錦

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费中文字幕一级毛片| 亚洲日本va午夜中文字幕一区| 久久se精品一区精品二区国产| 亚洲成A人A∨久在线观看| 国产欧美日韩综合一区二区三区| 色姑娘综合网| 国产午夜激无码av毛片| 国产在线98福利播放视频免费| 亚洲国产精品午夜电影| 少妇内谢xxxx| 欧美日韩中文国产一区| 欧美精品在线观看| 黑人大长吊大战中国人妻| 久久综合精品国产一区二区三区无 | 国产一区视频二区视频| 女人国产香蕉久久精品| 日韩av一区在线| 亚洲人成在线播放网站| 亚洲精品国产精品乱码不卞2021| 国产aⅴ人妻互换一区二区| 亚洲男人天堂一级黄色片| 尹人97| 久久精品国产精品亚洲20| 在线观看潮喷失禁大喷水无码| 日韩精品亚洲专在线电影| 国产av大全| 亚洲美腿丝袜无码专区| 色偷偷亚洲av男人的天堂| 日本亚洲成高清一区二区三区| 国产真人无码作爱免费视频| 丰满少妇在线观看网站| 国产精品三级在线播放| 国产精品国产三级国av| 欧美无遮挡很黄裸交视频| 久久久久久AV无码免费网站动漫 | 国产成人无码午夜视频在线观看| 国外精品视频在线观看免费| 日韩人妻无码中文字幕一区| 欧美大片va欧美在线播放| 欧美A√| 99亚洲视频|