<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      前沿分享丨何愷明首個語言模型:105M參數,不走GPT自回歸老路

      0
      分享至

      轉自 量子位

      何愷明,也下場做語言模型了。

      只不過,這次他帶隊做的不是大家熟悉的、像ChatGPT背后那套“預測下一個詞元”(next token prediction)的自回歸范式。

      而是另一條過去幾年在圖像領域大火、如今正被越來越多人搬進文本生成的新路線:擴散語言模型(Diffusion Language Model,DLM)。

      在最新的論文中,何愷明團隊放出全新連續擴散語言模型:ELF:Embedded Language Flows


      與不少還停留在token層面做擴散的語言模型不同,ELF把整個生成過程都留在了連續的embedding空間里,直到最后一步,才重新離散化,將表示變回token

      靠著這套設計,ELF只用了105M參數、45B訓練token、32步采樣,就正面跑贏了一批主流擴散語言模型。

      最直觀的一項指標是它在OpenWebText上,把生成困惑度(Generative Perplexity)直接壓到了24。

      這里簡單科普一下生成困惑度,它本質上是讓一個強大的語言模型,給生成結果“檢查作業”,看看這些文本到底像不像真實人類寫出來的語料——

      值越低,說明生成質量越高、模型出來的東西也就越沒AI味兒,越自然。

      在和主流擴散語言模型的對比中,ELF在訓練token少近10倍、采樣步數更少的情況下,反而拿到了更低的生成困惑度。


      可以說,在過去很長一段時間里,擴散語言模型的進展,幾乎都發生在離散DLM(Discrete DLM)這一側。

      而ELF第一次證明了一件事:連續的方法,不但能跑,而且效果不錯。

      ELF到底做了什么

      要理解ELF,先得理解擴散語言模型現在到底在做什么。

      擴散語言模型,主要有兩種技術路線。一是以MDLM、Duo為代表的離散派,直接在token空間做擴散,每一步處理的是離散隨機變量。

      二是包括Diffusion-LM、CDCD、DiffuSeq在內的連續派,把token映成連續embedding,在連續空間里去噪。


      此前的研究中,像MDLM、LLaDA、Dream 7B這些離散路線占據了上風。原因是很簡單,因為語言本身就是離散的。

      對于這一看似常識的理解,愷明團隊給出的判斷恰恰相反——

      問題可能不是“語言必須離散”,問題可能是:前人根本沒有讓連續路線,連續到底。

      Diffusion-LM這一類的方法雖然在embedding空間去噪,但每一步都要算一次token-level的交叉熵,把連續軌跡一路綁在詞表上。

      后來的LD4LG、Cosmos走latent diffusion路線,去噪過程是連續了,但要單獨訓一個decoder把latent解回token,相當于多一個模塊。

      基于此,ELF把所有denoising,全留在continuous embedding space;直到最后一步 t=1,才重新投回token。


      具體來說,ELF在訓練時,離散token先被編碼成連續embedding,再加噪成 z_t,模型要么負責把它還原成干凈embedding(MSE),要么直接預測token(CE)。


      推理時,模型從高斯噪聲 z_0 出發,一路在連續空間里去噪,直到最后一步,才切到decode模式,把embedding重新投回token。

      ELF第一次把“連續表示”和“離散輸出”這兩個過去總被認為必須反復對齊的問題,徹底拆開了:

      中間的去噪,完全交給連續空間;最終的語言生成,只留到最后一步離散化。

      沒有每一步都往詞表上硬對齊,也不需要額外訓練一個decoder,整個生成流程第一次真正做到了:

      連續就是連續,離散就是離散。

      而這,恰恰也是ELF后面能用更少采樣步數、更少訓練token,卻跑贏一眾擴散語言模型的關鍵。

      ELF不是“先擴散,再解碼”。

      在具體的實現上,ELF還解決了三個問題:

      token怎么變連續?連續里怎么去噪?最后又怎么變回token?

      把token變成連續embedding

      要把連續擴散用在語言上,第一步,得先把離散的token變成連續表示。

      論文中,ELF先把它切成token序列,再映射到連續embedding空間。這里具體怎么映射,其實有多種選擇。

      默認情況下,ELF用的是T5預訓練encoder,生成雙向的contextual embedding。論文后面也測試了jointly trained embedding和隨機embedding等不同方案。

      值得注意的是,這個encoder只在訓練階段使用,推理時并不會額外增加模塊。

      在連續embedding空間里做Flow Matching

      拿到連續表示之后,ELF就在embedding空間里做Flow Matching。

      簡單說,Flow Matching定義了一條從噪聲到真實數據的連續流動軌跡:

      • t=0時,是高斯噪聲;

      • t=1時,是干凈的embedding;

      • 中間所有狀態,都是兩者的線性插值,也就是論文里的rectified flow。

      在傳統Flow Matching,網絡通常直接預測“速度場” v。

      但ELF沒有這么做,而是沿用了愷明團隊半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

      直接預測干凈embedding x,也就是x-prediction


      訓練目標,就是最小化預測embedding和真實embedding之間的均方誤差(MSE)。

      至于為什么采用x-prediction,論文給了兩個原因:

      第一,它在高維表示上更穩定——比如768維甚至更高的token embedding;第二,它天然和最后一步“預測干凈token”的目標對齊。

      論文還特別提到:雖然理論上也可以先預測速度v,再換算成x,但這樣一來,后面denoising和decoding之間的權重共享就很難成立。

      實驗上,他們也發現:一旦共享權重,v-prediction效果明顯變差。

      從連續embedding,再回到離散token

      生成語言,最終輸出還是離散token。

      所以ELF只在最后一個時間步(t = 1),還得把連續embedding重新投回token空間。

      不過,這一步ELF沒有像很多latent diffusion方法那樣,額外訓練一個decoder。相反,它把最后一步直接視作:
      一次continuous-to-discrete decoding。

      換句話說:decoder和前面的denoiser,其實是同一個網絡。

      為了讓最后一步訓練不至于太簡單(因為理論上t→1時,輸入已經非常接近干凈embedding),ELF在最后一步額外加入了一次token-level corruption,構造出一個帶擾動的輸入。

      隨后,同一個網絡輸出clean embedding,再通過一個可學習的unembedding矩陣 W,投影成token logits。

      訓練目標,則是標準的token-level cross-entropy loss。整個網絡共享同一套參數,并額外接收一個二值的mode token:去噪模式/解碼模式。

      推理時,ELF從高斯噪聲開始一路在連續空間里去噪,直到最后一步 t = 1,才切換到decode模式,再通過argmax輸出最終token。

      值得一提的是,在ELF中,圖像生成里最常用的技術之一,CFG(classifier-free guidance)也被搬過來了

      ELF用self-conditioning作為條件信號,套上training-time CFG(一次forward模擬兩次推理,沒有inference開銷),把圖像那邊的方案直接搬了過來。

      實驗對比

      實驗部分,ELF基本回答了一個過去兩年一直懸著的問題:

      連續擴散語言模型,到底能不能打?答案是:不但能打,而且第一次在質量、速度、訓練成本三個維度同時贏。

      如開頭所說,在OpenWebText生成任務中,在不做蒸餾的情況下,ELF只用32步采樣,就把生成困惑度壓到了24。

      而此前主流的離散擴散模型,往往要跑到1024步,才能接近這個水平。


      更夸張的是,ELF實現這一結果時,訓練token只用了45B。

      而同級別對手,普遍是500B+。換句話說:采樣步數少了一個數量級,訓練數據也少了一個數量級,效果反而更好。

      而在很多擴散模型最容易掉隊的條件生成任務上,ELF也沒掉鏈子。

      無論是WMT14機器翻譯,還是XSum文本摘要,ELF都穩定超過現有擴散語言模型,甚至把不少自回歸baseline也壓了下去。


      論文最后給出的總結其實很克制:ELF在生成質量、采樣效率和訓練成本之間,實現了很強的trade-off。

      翻譯成人話就是:連續派,不是不能打。只是以前沒把連續這件事做到底。

      作者介紹

      最后,我們再來介紹一下這篇文章的作者。

      這篇論文的兩篇一作是共同貢獻,排名先后順序由硬幣決定。

      胡珂雅,她是這篇文章的兩位第一作者之一,MIT EECS一年級博士生,也是愷明在MIT帶的第一批博士生之一,目前由愷明Jacob Andreas聯合指導。


      圖源:胡珂雅個人主頁

      她本科畢業于上交的ACM班,目前的研究興趣主要是語言和視覺的交叉領域,致力于構建數據效率更高、泛化能力更強的智能體。

      值得一提的是,在愷明MIT的主頁中,胡珂雅排在Grad students第一位,可以說是組內的大師姐了。


      第二位第一作者Linlu Qiu,同樣是MIT的博士生,師從Yoon Kim


      圖源:Linlu Qiu個人主頁

      她本科畢業于香港大學,碩士畢業于Georgia Institute of Technology,此前還在Google做過AI Resident。

      有意思的是,這并不是她第一次和愷明合作。就在不久前,她還和愷明團隊一起拿下了CVPR 2026論文《ARC Is a Vision Problem!》,把ARC推理問題重新定義成了視覺問題。


      另一位作者Hanhong Zhao(趙瀚宏)為MIT本科生,他高中就讀于人大附中,曾是國際物理奧林匹克競賽IPhO金牌得主。


      圖源:math.mit.edu

      還有一位作者陸伊煬,背景有點“少年班味道”。


      圖源:陸伊煬個人主頁

      他是清華姚班大二本科生,目前在MIT計算機科學與人工智能實驗室(CSAIL)實習,導師是何愷明,主要研究方向為計算機視覺和深度生成模型。

      高中時期,他是物理競賽生,曾以江蘇選手中第一名、全國第九名的成績,在2022年獲得了第三十九屆全國中學生物理競賽(CPhO)金牌。

      此前,他以一作身份與愷明合作過論文《Bidirectional Normalizing Flow: From Data to Noise and Back》。


      另一位核心作者黎天鴻,則是愷明組的博后。


      圖源:黎天鴻個人主頁

      他本科就讀于清華姚班,博士畢業于MIT,半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作,就是他。

      此外,論文的其他作者Yoon KimJacob Andreas,MIT EECS兩位語言模型方向的教授,以及何愷明本人。

      參考鏈接
      [1]https://arxiv.org/pdf/2605.10938

      【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全市中到大雨,局部暴雨!有雷電!濟南將開啟“雨雨雨”模式

      全市中到大雨,局部暴雨!有雷電!濟南將開啟“雨雨雨”模式

      齊魯壹點
      2026-05-15 22:08:24
      印度自取其辱,專挑中美的大日子舉辦金磚會議,王毅外長直接不去

      印度自取其辱,專挑中美的大日子舉辦金磚會議,王毅外長直接不去

      生活魔術專家
      2026-05-15 16:18:18
      馬斯克兒子四個月婚姻破裂,兩年后產女并愛上男DJ

      馬斯克兒子四個月婚姻破裂,兩年后產女并愛上男DJ

      李橑在北漂
      2026-05-15 14:26:39
      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲

      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲

      嘴角上翹的弧度
      2026-05-14 02:53:32
      零跑汽車:一季度營收同比增8%,凈虧損擴大至3.9億元

      零跑汽車:一季度營收同比增8%,凈虧損擴大至3.9億元

      澎湃新聞
      2026-05-15 20:34:26
      廣東記者質疑杜鋒:整個賽季,都沒有將奎因放在合適的位置

      廣東記者質疑杜鋒:整個賽季,都沒有將奎因放在合適的位置

      體育哲人
      2026-05-15 19:54:24
      6月喜迎財神上門!事業開新局,順風順水滿堂生輝的三大生肖!

      6月喜迎財神上門!事業開新局,順風順水滿堂生輝的三大生肖!

      毅談生肖
      2026-05-13 11:18:00
      日本突發強震

      日本突發強震

      農民日報
      2026-05-15 20:20:17
      5萬人怒砸東京街,高市早苗終于服軟認慫,中方冷回:不糾錯免談

      5萬人怒砸東京街,高市早苗終于服軟認慫,中方冷回:不糾錯免談

      泠泠說史
      2026-05-14 21:52:49
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

      明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

      流云隨風去遠方
      2026-05-13 08:12:48
      國安4-2戰勝海牛,主帥:我們本應取得3連勝

      國安4-2戰勝海牛,主帥:我們本應取得3連勝

      余憁搞笑段子
      2026-05-15 23:12:24
      馬斯克2個月連發26條種族帖,只為攻擊諾蘭2.5億新片選角

      馬斯克2個月連發26條種族帖,只為攻擊諾蘭2.5億新片選角

      熱搜摘要官
      2026-05-14 06:45:33
      馬斯克點贊,宇樹科技“載人機甲”的驚天一躍

      馬斯克點贊,宇樹科技“載人機甲”的驚天一躍

      零態
      2026-05-14 16:12:40
      秦嶺摩托車男子被撞死,肇事者只能賠18萬:162萬缺口,誰來填?

      秦嶺摩托車男子被撞死,肇事者只能賠18萬:162萬缺口,誰來填?

      匹夫來搞笑
      2026-05-15 17:43:05
      終結日本混雙冠軍夢!星馳組合2-0晉級,泰國賽四強國羽半壁江山

      終結日本混雙冠軍夢!星馳組合2-0晉級,泰國賽四強國羽半壁江山

      釘釘陌上花開
      2026-05-15 18:34:19
      花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

      花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

      芹姐說生活
      2026-05-15 23:37:01
      美國人評選朝鮮戰爭8大名將麥克阿瑟第六,彭總第二,誰是第一?

      美國人評選朝鮮戰爭8大名將麥克阿瑟第六,彭總第二,誰是第一?

      超人強動物俱樂部
      2026-05-15 17:06:47
      馬斯克陪特朗普來華公務訪問,78歲母親卻在上海搶了風頭

      馬斯克陪特朗普來華公務訪問,78歲母親卻在上海搶了風頭

      林子說事
      2026-05-15 14:13:33
      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      緋雨兒
      2026-05-15 08:28:40
      2026-05-16 00:32:49
      中國人工智能學會
      中國人工智能學會
      中國人工智能學會網易官方賬號
      4039文章數 1489關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      房產
      手機
      游戲
      家居
      健康

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      手機要聞

      華為Pura 90 Pro系列獲鴻蒙HarmonyOS 6.1.0.120 SP30升級

      PS5史詩級更新!全新功能上線測試版

      家居要聞

      110㎡淡而有致的生活表達

      專家揭秘干細胞回輸的安全風險

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合久久久久8天国| 久久国产劲暴∨内射| 国产精品一二| 一二三四中文字幕日韩乱码| 久久精品国产99久久久小说| 国产免费爽爽视频| 精品无码人妻一区二区三区品| 视频一区国产第一页| 韩日乱伦| 国产乱人伦| 直接黄91麻豆网站| 一区二区三区极品销魂| 久久久久国产精品人妻aⅴ免费| 好男人官网资源在线观看| 亚洲天堂精品一区| 最新在线中文字幕| 日韩欧美国产精品| 91久久久久无码精品露脸| 亚洲一区综合图区| 人妻无码中文久久久久专区| 国产suv精品一区二区四| 日韩偷拍一区二区| 中文字幕乱码亚洲中文在线| 日韩精品中文字幕 一区| 全部无卡免费的毛片在线看| 免费精品一区二区中文字幕| 国产婷婷综合在线视频中文| 色猫咪av在线网址| 日产2021免费一二三四区在线 | 免费在线观看av播放| 99热成人精品热久久| 亚洲欧美日本A∨在线观看 | 中文av不卡| 衣服被扒开强摸双乳18禁网站| 欧亚乱色一区二区三区| 乌苏市| 亚洲欧美日韩中文字幕一区二区三区| 国产精品久久久久久久久免费无码| 日韩一欧美内射在线观看| 人妻无码专区一区二区三区| 国产精品视频2020年最新视频|