<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      活久見,時代少年團給大模型上了一課

      0
      分享至



      機器之心編輯部

      大模型「不認識馬嘉祺」的原因,被 MiniMax 研究透了。

      現(xiàn)在大家日常都在用 AI 大模型,要說 AI 的 bug,那雖然算不上層出不窮,但每一個都相當奇葩,令人哭笑不得。

      比如,DeepSeek V3.1 會在毫無預兆的地方塞一個「極」字,連英文輸出也逃不過,「極」變身「extreme」,在代碼里、試卷里、報告里神出鬼沒,被網友戲稱「極你太美 bug」。

      GPT-5 系列迷上了哥布林 —— 不管你在聊相機還是寫財務報告,它都能不動聲色地在比喻里塞進一只「哥布林」,OpenAI 工程師不得不在系統(tǒng)提示詞里手動寫下禁令:「永遠不要談論哥布林、小精靈、浣熊、巨魔、食人魔、鴿子……」。

      豆包則在搜索清末民初大總統(tǒng)黎元洪時,給出了喜劇演員范偉的惡搞劇照 —— 因為當年那張圖流傳太廣,互聯(lián)網上的玩梗內容徹底壓過了真實歷史照片,AI 認為范偉就是黎元洪。







      多張圖,左右滑動查看

      上面這些案例,大多可以歸結為臟數(shù)據污染、獎勵信號偏差、信息混淆之類的原因,屬于你能理解的錯誤。

      但接下來要說的這個 bug 要更耐人尋味一些,它指向的是大模型深層的一個結構問題。

      AI 說不出他的名字

      故事的起點,是時代少年團隊長馬嘉祺。



      圖源:小紅書

      是的,你可能還記得,面對這位 2002 年出生的優(yōu)質青年演員和新生代歌手,MiniMax-M2.5 就是無法說出他的名字。

      然而有趣的是,并不是說模型完全不知道馬嘉祺是誰 —— 它知道但就是說不出。其具體表現(xiàn)為當你問 AI「時代少年團的隊長叫什么名字」,MiniMax-M2.5 模型支支吾吾,就是說不出來,甚至還會生編硬造一些人名,比如馬嘉軒、馬絲祺。

      但如果你問它「時代少年團是什么團體?隊長有哪些經歷?」它卻能給出正確又有條理的回答,包括出道時間、團體角色、代表綜藝…… 唯獨回避了「馬嘉祺」這個名字本身。

      就好像「馬嘉祺」這三個字符的組合被屏蔽了一樣,始終出不來。



      實際上,人類自己有時候也會遇到這種情況,甚至還有個專門的心理學術語來描述:舌尖現(xiàn)象(tip-of-the-tongue phenomenon)。即知道某個詞,就是說不出口。



      圖源:維基百科

      只是沒想到,千億參數(shù)的大語言模型,也會精準地復刻這種現(xiàn)象。

      MiniMax M2.7 上線后,這個問題已經被修復,我們當時還專門體驗報道過,參閱《剛剛,MiniMax 直接讓龍蝦學會自我進化,也認識「馬嘉祺」了》。但「馬嘉祺 bug」背后的機制,一直沒有被完整地揭開過。

      直到昨天,MiniMax 工程團隊發(fā)布了一篇詳細的內部排查報告,把這個同時驚動了 AI 行業(yè)與娛樂圈的問題從頭到尾梳理了一遍。他們也「因禍得福」,成了第一個搞清楚 AI 「理解≠生成」,提出可用修復方向的團隊。



      簡單來說,MiniMax 首先確認他們的 M2.5 模型確實是認識馬嘉祺的,而無法輸出其名字的原因是大模型在監(jiān)督微調(SFT)階段有一個隱蔽但讓人頭大的問題。

      驗牌:不是 AI 不知道,是說不出來

      首先是界定這個現(xiàn)象,MiniMax M2 系列模型在一些場景下無法正常輸出「馬嘉祺」。但從模型回答來看,它仍然掌握與之關聯(lián)的知識,例如能回答其所屬團體、身份等信息。這意味著問題不在知識缺失,而更像是生成階段某個 token 無法被穩(wěn)定采樣出來。

      在內部復現(xiàn)后,MiniMax 發(fā)現(xiàn)這不是?個孤立的 case?除了「馬嘉祺」之外,還有一些其他低頻詞匯(如「王鶴」等)也存在類似現(xiàn)象。

      壞了,必須趕緊排查解決。

      那么是 Tokenizer(分詞器)切錯了嗎?

      起初,很多人(包括社區(qū)開發(fā)者)猜測是預訓練和推理時的切詞邏輯不一致導致的。工程師順著這個思路做了驗證:牌沒有問題。「嘉祺」確實是被合成為了一個獨立的 Token(ID=190467)。



      檢查預訓練模型的向量分布,發(fā)現(xiàn)它處于正常范圍。更有力證據的是,給這個 Token 尋找「語義近鄰」,模型能精準召回「千璽」、「亞軒」等高度相關的中文人名 。這證明模型在預訓練階段是完美掌握這個詞的。

      使用早期的 Base 模型進行 few-shot 引導,模型能順利輸出「馬嘉祺」。但換成經過 SFT 的后訓練模型,卻依然回避這個詞。

      Q: TFBOYS 的隊長是誰? A: TFBOYS 的隊長是王俊凱。 Q: 飛兒樂團的主唱叫什么? A: 飛兒樂團的主唱叫詹雯婷(Faye)。 Q: 時代少年團的隊長是誰? A

      結論有了:Tokenizer 沒問題,問題出在后訓練(SFT)階段。工程師進一步調查了后訓練的數(shù)據分布,統(tǒng)計發(fā)現(xiàn),SFT 語料中包含「嘉祺」的樣本總共不足 5 條。

      全網馬嘉祺的信息當然不至于這么稀少,模型內部發(fā)生了什么?檢查發(fā)現(xiàn),輸入端(vocab embedding)幾乎沒變,但是直接控制模型最終生成的輸出端(Im_head)卻發(fā)生了顯著偏移。

      原因:竟是個「小語種」問題

      既然 SFT 后模型仍然能理解問題,Transformer 中間層的大范圍語義能力退化就不是最可能的主因。文檔的排查重點轉向模型首尾兩端:輸入側 vocab embedding 和輸出側 lm_head。

      這兩個部分是干什么用的?在大模型里,輸入層 Embedding 負責把人類語言翻譯成機器能懂的向量,而輸出層 lm_head 負責接收 AI 生成的抽象意圖,然后在幾十萬 token 組成的字庫里給每一個詞塊打分(計算概率),分數(shù)最高的那個詞,就是 AI 吐出來的下一個字。

      排查的結果很明顯:vocab embedding 幾乎不變,lm_head 變化顯著。

      背后的原因不難理解,SFT 數(shù)據中「嘉祺」既然是個低頻出現(xiàn)的 token,embedding 層自然很難收到有效梯度更新,因此輸入側向量保持穩(wěn)定是合理的。但 lm_head 是模型把隱藏狀態(tài)映射回詞表概率的出口,它直接決定一個 token 能不能被生成出來。

      工程師們發(fā)現(xiàn),「嘉祺」對應的 lm_head 向量在 SFT 前后余弦相似度大幅下降,變化幅度在整個詞表中排名靠前。



      更直觀的證據來自 lm_head 最近鄰結構。預訓練階段,「嘉祺」附近主要是中文人名,如「亞軒」「祺」「肖戰(zhàn)」「子怡」「霆鋒」「杰倫」等。SFT 之后,它的鄰域被大量特殊 token、tool call 標記、文件編輯標記和編碼噪聲污染,例如 、

      等。

      這說明輸出空間里的局部結構被擠壓了:原本屬于人名 token 的位置,開始和大量無關 token 混在一起

      這也解釋了為什么模型會出現(xiàn)懂但說不出的狀態(tài)。模型內部仍然可能形成了正確的語義意圖,但在最終輸出時,「嘉祺」這個 token 的 lm_head 方向已經漂移,導致它的生成概率被壓低,或者被空間鄰近的錯誤 token 替代。

      這種問題主要影響哪些詞匯?MiniMax 進一步統(tǒng)計了 SFT 前后 lm_head 變化最大的 token 類別。除了 special tokens、LaTeX 標記、網頁元數(shù)據、中文 SEO 垃圾詞之外,一個特別顯眼的類別是日文口語和網頁模板表達,占比超過 40%。

      這讓團隊把稀疏 token 遺忘與「小語種混雜」聯(lián)系到了一起:如果 SFT 數(shù)據中某些語言 token 覆蓋不足,它們的 lm_head 表征就會漂移,既可能在該生成時生成不出來,也可能在不該出現(xiàn)時與其他語言 token 混淆。

      修復:答案默念 500 遍

      找到根因之后,修復方案反而出奇地簡單直接:提高后訓練階段的詞表覆蓋度。

      MiniMax 的方法是:構造一份「全詞表覆蓋合成數(shù)據」。把詞表里的 200064 個 token 隨機分批,每批約 8000 個,構造一條對話樣本 ——query 是打亂后的詞列表加上「請重復以上內容」的指令,answer 是原樣復制。如此循環(huán),總共只生成了約 500 條合成數(shù)據,占總 SFT 數(shù)據量約 1%,確保每個 token 至少作為生成目標出現(xiàn) 20 次。

      這個設計就是在給每個 token 一個生成頻率的下限,像是在 SFT 階段給整個詞表做一次「保底校準」:即便某些 token 在真實對話數(shù)據中極少出現(xiàn),也不會完全失去作為輸出目標的訓練信號。

      效果如何呢?數(shù)據是最好的回答:

      實驗對比中,日語對話混入俄語字符的概率,從 M2.7 的 47% 直接降至 1%。馬嘉祺可以被正常說出。「無痛人流」、「據介紹」、「地稅」這些此前會被悄悄替換為錯誤 token 的詞組,全部恢復正常輸出。

      更有說服力的是 lm_head cosine similarity 的定量結果。



      500 條數(shù)據,修好了 20 萬個詞的「生成能力遺忘」問題。

      發(fā)現(xiàn):后訓練數(shù)據,太關鍵了

      至此,一個出圈的八卦話題在工程的角度被解決了。

      大模型的 tokenizer 通常來自大規(guī)模預訓練語料,詞表里會包含大量長尾 token。預訓練階段,這些 token 可能都被 AI 反復看過。但進入后訓練階段后,數(shù)據分布發(fā)生了劇烈變化,對話數(shù)據更干凈、更任務化,也更偏向常見表達。

      結果就是,一些在預訓練中學得不錯的 token,在后訓練中長期沒有作為生成目標出現(xiàn),最終在 lm_head 中發(fā)生方向漂移。

      所以說,后訓練數(shù)據的質量不能光看任務類型、領域覆蓋和指令質量,還要看更底層的 token。過去我們常說 SFT 會帶來災難性遺忘,通常指的是能力或知識層面的退化,但「馬嘉祺」問題展示的是更細粒度的遺忘:模型沒有忘掉概念,卻忘掉了如何把某個 token 說出來。

      當然,上面的修復策略均作用于后訓練階段,本質上屬于事后補救措施。那么這個問題能根治嗎?

      MiniMax 認為,工程角度上后續(xù)可探索的方向包括混入少量預訓練數(shù)據、針對低頻 token 定向合成樣本、建立 token 覆蓋度監(jiān)控機制,甚至通過詞表裁剪與繼續(xù)預訓練重新對齊 embedding 空間。

      但無論采用哪種方案,核心啟示都是一致的:不認識「馬嘉祺」并不是一個孤立 bug,后訓練不是簡單地把模型調得更會聊天,它也會重新塑造詞表輸出空間,只要后訓練數(shù)據覆蓋不均勻,長尾 token 就可能在沉默中退化。

      結語

      提筆忘字,張嘴忘詞不是只有 MiniMax 才會發(fā)生的 bug,它很早就已經出現(xiàn),只是最近才被 AI 圈外的人關注。

      其實這個現(xiàn)象有一個名稱叫「Glitch Token」,不認識馬嘉祺事件火了之前,人們在 ChatGPT、Qwen 上也發(fā)現(xiàn)過類似的問題,并對此進行了一系列研究。在名人效應的催更下,問題到了今天似乎可以說是告于段落。

      不過仔細一想,這個稍微有些搞笑的 bug,也讓我們意外看到了 AI 大模型和人類的一點共同之處。

      就像我們經常一句話已經到了嘴邊,卻發(fā)現(xiàn)怎么也想不起來要說什么。大模型的腦內檢索也并非絕對精確,在漫長的記憶里不斷挑選時,某些細節(jié)偏差可能會被異常放大,某些路徑會突然坍縮,最終給你呈現(xiàn)出一點詭異的答案。

      大模型的「理解」與「生成」本就是解耦的兩套參數(shù),它們在不同的訓練階段以不同的方式更新,一旦后訓練數(shù)據分布出現(xiàn)偏差,兩端就可能出現(xiàn)裂縫。

      好消息是:裂縫被發(fā)現(xiàn)了,而且被仔細地記錄和修復了。這一次,是從一位追星粉絲的疑問出發(fā)的。

      下一次,不知道會是誰先發(fā)現(xiàn)?

      參考內容:

      https://www.zhihu.com/question/2017049686331127666/answer/2036149386116342692

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯(lián)播》

      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯(lián)播》

      IT之家
      2026-05-10 22:51:11
      我穿便裝到妻子家過年,被廳長大舅哥使喚,警衛(wèi)員送來文件他愣了

      我穿便裝到妻子家過年,被廳長大舅哥使喚,警衛(wèi)員送來文件他愣了

      千秋文化
      2026-05-08 10:29:06
      隨著AC米蘭2-3,羅馬3-2,意甲最新積分榜出爐:爭四白熱化

      隨著AC米蘭2-3,羅馬3-2,意甲最新積分榜出爐:爭四白熱化

      側身凌空斬
      2026-05-11 04:50:17
      “牛散”葛衛(wèi)東211億押注科技制造,靠“炒股”常駐全球富豪榜

      “牛散”葛衛(wèi)東211億押注科技制造,靠“炒股”常駐全球富豪榜

      野馬財經
      2026-05-10 19:41:58
      國乒男團回酒店太熱鬧!祝王楚欽生日,大喊梁靖崑牛,全員帶笑容

      國乒男團回酒店太熱鬧!祝王楚欽生日,大喊梁靖崑牛,全員帶笑容

      籃球資訊達人
      2026-05-11 03:42:03
      為了沖10%增長,越南賭場KTV全面松綁

      為了沖10%增長,越南賭場KTV全面松綁

      鳳眼論
      2026-05-10 22:14:23
      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經常吃黃瓜的人,不出半年,或有4大改善

      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經常吃黃瓜的人,不出半年,或有4大改善

      芹姐說生活
      2026-05-09 21:08:03
      第82分鐘破門!恩里克神換人:替補神兵絕殺,大巴黎狂攬73分

      第82分鐘破門!恩里克神換人:替補神兵絕殺,大巴黎狂攬73分

      足球狗說
      2026-05-11 05:08:13
      籃板王!西班牙MVP,賽季結束了…

      籃板王!西班牙MVP,賽季結束了…

      左右為籃
      2026-05-10 21:33:23
      別被孫穎莎的“大心臟”騙了!臺灣解說驚呼背后,藏著3大真相

      別被孫穎莎的“大心臟”騙了!臺灣解說驚呼背后,藏著3大真相

      格斗社
      2026-04-03 20:24:03
      斯諾克元老世錦賽:奧沙利文10- 4擊敗51歲英格蘭名將,勇奪冠軍

      斯諾克元老世錦賽:奧沙利文10- 4擊敗51歲英格蘭名將,勇奪冠軍

      俯身沖頂
      2026-05-11 05:27:09
      解放前特務用很小的電臺就能向臺灣發(fā)報,可如今為什么沒法做到?

      解放前特務用很小的電臺就能向臺灣發(fā)報,可如今為什么沒法做到?

      宅家伍菇涼
      2026-05-09 09:41:53
      冠軍體質,坎塞洛成為第一個在四大聯(lián)賽中奪得聯(lián)賽冠軍的球員

      冠軍體質,坎塞洛成為第一個在四大聯(lián)賽中奪得聯(lián)賽冠軍的球員

      懂球帝
      2026-05-11 05:06:32
      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優(yōu)勢

      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優(yōu)勢

      籃球看比賽
      2026-02-04 17:46:56
      悲催!網傳深圳一工廠停業(yè),無提前告知、無協(xié)商溝通,派律師送達

      悲催!網傳深圳一工廠停業(yè),無提前告知、無協(xié)商溝通,派律師送達

      火山詩話
      2026-05-10 18:29:35
      “不是找不到工作 是享受的工作真的難找” “網紅教授”鄭強:大學不應完全按市場需求設專業(yè),更應教授原理和基礎

      “不是找不到工作 是享受的工作真的難找” “網紅教授”鄭強:大學不應完全按市場需求設專業(yè),更應教授原理和基礎

      每日經濟新聞
      2026-05-10 17:07:19
      小玥兒開通個人賬號!發(fā)文求救,曬照思念媽媽,外婆和小S是好友

      小玥兒開通個人賬號!發(fā)文求救,曬照思念媽媽,外婆和小S是好友

      小娛樂悠悠
      2026-05-10 11:32:57
      4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

      4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

      中國新聞周刊
      2026-05-09 19:38:06
      浙江隊或被CBA公司追加處罰!

      浙江隊或被CBA公司追加處罰!

      體育哲人
      2026-05-11 00:44:59
      6月1日執(zhí)法有變!公安部不查開車時長,專查駕駛狀態(tài),司機別饒幸

      6月1日執(zhí)法有變!公安部不查開車時長,專查駕駛狀態(tài),司機別饒幸

      王姐懶人家常菜
      2026-05-11 00:42:45
      2026-05-11 06:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12957文章數(shù) 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業(yè)了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      親子
      家居
      公開課

      干細胞能讓人“返老還童”嗎

      數(shù)碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      親子要聞

      從第一聲呼喚開始,愛就有了名字

      家居要聞

      菁英人居 全能豪宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久午夜夜伦鲁鲁片免费无码影视| 成人无码一区二区三区网站| 洋洋AV| 各种姿势玩小处雏女视频| 伊人婷婷色香五月综合缴缴情| 欧美日韩一区二区成人午夜电影| 好深好湿好硬顶到了好爽| 美乳少妇与邻居尤物啪啪| 午夜福利偷拍国语对白| 麻豆精品国产综合久久| 色综合伊人色综合网站无码| 国产一区二区三区小说| 久久久噜噜噜久久中文福利| 欧美乱码精品一区二区| www夜片内射视频日韩精品成人| 99在线精品免费视频九九视| 五月婷婷丁香六月| 日本成片区免费久久| 久久久久香蕉国产线看观看伊 | 特黄免费| 99国产欧美久久久精品| 天天躁日日躁狼狼超碰97| 日韩人妻无码一区二区三区99| 国产精品美女在线| 国内视频自拍| 亚洲色欲久久久综合网东京热| 2022国产男人亚洲欧美天堂| 凤城市| 国产丝袜第一页| 国产福利视频区一区二区| 制服丝袜无码| 久久国产无码| 国产乱人伦偷精品视频免观看| 成人午夜激情| 亚洲国产精品久久电影欧美| 久久久久久99精品| 天堂а√中文最新版在线| 亚洲中文字幕观看| 国产品无码一区二区三区在线| 一本加勒比hezyo无码专区| 性――交――性――乱|