<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

前沿分享丨何愷明首個語言模型：105M參數，不走GPT自回歸老路

2026-05-13 17:29:20　來源: 中國人工智能學會

北京舉報

0

分享至

轉自量子位

何愷明，也下場做語言模型了。

只不過，這次他帶隊做的不是大家熟悉的、像ChatGPT背后那套“預測下一個詞元”（next token prediction）的自回歸范式。

而是另一條過去幾年在圖像領域大火、如今正被越來越多人搬進文本生成的新路線：擴散語言模型（Diffusion Language Model，DLM）。

在最新的論文中，何愷明團隊放出全新連續擴散語言模型：ELF：Embedded Language Flows。

與不少還停留在token層面做擴散的語言模型不同，ELF把整個生成過程都留在了連續的embedding空間里，直到最后一步，才重新離散化，將表示變回token。

靠著這套設計，ELF只用了105M參數、45B訓練token、32步采樣，就正面跑贏了一批主流擴散語言模型。

最直觀的一項指標是它在OpenWebText上，把生成困惑度（Generative Perplexity）直接壓到了24。

這里簡單科普一下生成困惑度，它本質上是讓一個強大的語言模型，給生成結果“檢查作業”，看看這些文本到底像不像真實人類寫出來的語料——

值越低，說明生成質量越高、模型出來的東西也就越沒AI味兒，越自然。

在和主流擴散語言模型的對比中，ELF在訓練token少近10倍、采樣步數更少的情況下，反而拿到了更低的生成困惑度。

可以說，在過去很長一段時間里，擴散語言模型的進展，幾乎都發生在離散DLM（Discrete DLM）這一側。

而ELF第一次證明了一件事：連續的方法，不但能跑，而且效果不錯。

ELF到底做了什么

要理解ELF，先得理解擴散語言模型現在到底在做什么。

擴散語言模型，主要有兩種技術路線。一是以MDLM、Duo為代表的離散派，直接在token空間做擴散，每一步處理的是離散隨機變量。

二是包括Diffusion-LM、CDCD、DiffuSeq在內的連續派，把token映成連續embedding，在連續空間里去噪。

此前的研究中，像MDLM、LLaDA、Dream 7B這些離散路線占據了上風。原因是很簡單，因為語言本身就是離散的。

對于這一看似常識的理解，愷明團隊給出的判斷恰恰相反——

問題可能不是“語言必須離散”，問題可能是：前人根本沒有讓連續路線，連續到底。

Diffusion-LM這一類的方法雖然在embedding空間去噪，但每一步都要算一次token-level的交叉熵，把連續軌跡一路綁在詞表上。

后來的LD4LG、Cosmos走latent diffusion路線，去噪過程是連續了，但要單獨訓一個decoder把latent解回token，相當于多一個模塊。

基于此，ELF把所有denoising，全留在continuous embedding space；直到最后一步 t=1，才重新投回token。

具體來說，ELF在訓練時，離散token先被編碼成連續embedding，再加噪成 z_t，模型要么負責把它還原成干凈embedding（MSE），要么直接預測token（CE）。

推理時，模型從高斯噪聲 z_0 出發，一路在連續空間里去噪，直到最后一步，才切到decode模式，把embedding重新投回token。

ELF第一次把“連續表示”和“離散輸出”這兩個過去總被認為必須反復對齊的問題，徹底拆開了：

中間的去噪，完全交給連續空間；最終的語言生成，只留到最后一步離散化。

沒有每一步都往詞表上硬對齊，也不需要額外訓練一個decoder，整個生成流程第一次真正做到了：

連續就是連續，離散就是離散。

而這，恰恰也是ELF后面能用更少采樣步數、更少訓練token，卻跑贏一眾擴散語言模型的關鍵。

ELF不是“先擴散，再解碼”。

在具體的實現上，ELF還解決了三個問題：

token怎么變連續？連續里怎么去噪？最后又怎么變回token？

把token變成連續embedding

要把連續擴散用在語言上，第一步，得先把離散的token變成連續表示。

論文中，ELF先把它切成token序列，再映射到連續embedding空間。這里具體怎么映射，其實有多種選擇。

默認情況下，ELF用的是T5預訓練encoder，生成雙向的contextual embedding。論文后面也測試了jointly trained embedding和隨機embedding等不同方案。

值得注意的是，這個encoder只在訓練階段使用，推理時并不會額外增加模塊。

在連續embedding空間里做Flow Matching

拿到連續表示之后，ELF就在embedding空間里做Flow Matching。

簡單說，Flow Matching定義了一條從噪聲到真實數據的連續流動軌跡：

t=0時，是高斯噪聲；
t=1時，是干凈的embedding；
中間所有狀態，都是兩者的線性插值，也就是論文里的rectified flow。

在傳統Flow Matching，網絡通常直接預測“速度場” v。

但ELF沒有這么做，而是沿用了愷明團隊半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

直接預測干凈embedding x，也就是x-prediction。

訓練目標，就是最小化預測embedding和真實embedding之間的均方誤差（MSE）。

至于為什么采用x-prediction，論文給了兩個原因：

第一，它在高維表示上更穩定——比如768維甚至更高的token embedding；第二，它天然和最后一步“預測干凈token”的目標對齊。

論文還特別提到：雖然理論上也可以先預測速度v，再換算成x，但這樣一來，后面denoising和decoding之間的權重共享就很難成立。

實驗上，他們也發現：一旦共享權重，v-prediction效果明顯變差。

從連續embedding，再回到離散token

生成語言，最終輸出還是離散token。

所以ELF只在最后一個時間步（t = 1），還得把連續embedding重新投回token空間。

不過，這一步ELF沒有像很多latent diffusion方法那樣，額外訓練一個decoder。相反，它把最后一步直接視作：
一次continuous-to-discrete decoding。

換句話說：decoder和前面的denoiser，其實是同一個網絡。

為了讓最后一步訓練不至于太簡單（因為理論上t→1時，輸入已經非常接近干凈embedding），ELF在最后一步額外加入了一次token-level corruption，構造出一個帶擾動的輸入。

隨后，同一個網絡輸出clean embedding，再通過一個可學習的unembedding矩陣 W，投影成token logits。

訓練目標，則是標準的token-level cross-entropy loss。整個網絡共享同一套參數，并額外接收一個二值的mode token：去噪模式/解碼模式。

推理時，ELF從高斯噪聲開始一路在連續空間里去噪，直到最后一步 t = 1，才切換到decode模式，再通過argmax輸出最終token。

值得一提的是，在ELF中，圖像生成里最常用的技術之一，CFG（classifier-free guidance）也被搬過來了

ELF用self-conditioning作為條件信號，套上training-time CFG（一次forward模擬兩次推理，沒有inference開銷），把圖像那邊的方案直接搬了過來。

實驗對比

實驗部分，ELF基本回答了一個過去兩年一直懸著的問題：

連續擴散語言模型，到底能不能打？答案是：不但能打，而且第一次在質量、速度、訓練成本三個維度同時贏。

如開頭所說，在OpenWebText生成任務中，在不做蒸餾的情況下，ELF只用32步采樣，就把生成困惑度壓到了24。

而此前主流的離散擴散模型，往往要跑到1024步，才能接近這個水平。

更夸張的是，ELF實現這一結果時，訓練token只用了45B。

而同級別對手，普遍是500B+。換句話說：采樣步數少了一個數量級，訓練數據也少了一個數量級，效果反而更好。

而在很多擴散模型最容易掉隊的條件生成任務上，ELF也沒掉鏈子。

無論是WMT14機器翻譯，還是XSum文本摘要，ELF都穩定超過現有擴散語言模型，甚至把不少自回歸baseline也壓了下去。

論文最后給出的總結其實很克制：ELF在生成質量、采樣效率和訓練成本之間，實現了很強的trade-off。

翻譯成人話就是：連續派，不是不能打。只是以前沒把連續這件事做到底。

作者介紹

最后，我們再來介紹一下這篇文章的作者。

這篇論文的兩篇一作是共同貢獻，排名先后順序由硬幣決定。

胡珂雅，她是這篇文章的兩位第一作者之一，MIT EECS一年級博士生，也是愷明在MIT帶的第一批博士生之一，目前由愷明和Jacob Andreas聯合指導。

圖源：胡珂雅個人主頁

她本科畢業于上交的ACM班，目前的研究興趣主要是語言和視覺的交叉領域，致力于構建數據效率更高、泛化能力更強的智能體。

值得一提的是，在愷明MIT的主頁中，胡珂雅排在Grad students第一位，可以說是組內的大師姐了。

第二位第一作者Linlu Qiu，同樣是MIT的博士生，師從Yoon Kim。

圖源：Linlu Qiu個人主頁

她本科畢業于香港大學，碩士畢業于Georgia Institute of Technology，此前還在Google做過AI Resident。

有意思的是，這并不是她第一次和愷明合作。就在不久前，她還和愷明團隊一起拿下了CVPR 2026論文《ARC Is a Vision Problem!》，把ARC推理問題重新定義成了視覺問題。

另一位作者Hanhong Zhao（趙瀚宏）為MIT本科生，他高中就讀于人大附中，曾是國際物理奧林匹克競賽IPhO金牌得主。

圖源：math.mit.edu

還有一位作者陸伊煬，背景有點“少年班味道”。

圖源：陸伊煬個人主頁

他是清華姚班大二本科生，目前在MIT計算機科學與人工智能實驗室（CSAIL）實習，導師是何愷明，主要研究方向為計算機視覺和深度生成模型。

高中時期，他是物理競賽生，曾以江蘇選手中第一名、全國第九名的成績，在2022年獲得了第三十九屆全國中學生物理競賽（CPhO）金牌。

此前，他以一作身份與愷明合作過論文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另一位核心作者黎天鴻，則是愷明組的博后。

圖源：黎天鴻個人主頁

他本科就讀于清華姚班，博士畢業于MIT，半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作，就是他。

此外，論文的其他作者Yoon Kim、Jacob Andreas，MIT EECS兩位語言模型方向的教授，以及何愷明本人。

參考鏈接
[1]https://arxiv.org/pdf/2605.10938

【免責聲明】轉載出于非商業性的教育和科研目的，只為學術新聞信息的傳播，版權歸原作者所有，如有侵權請立即與我們聯系，我們將及時刪除。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

兩女子坐電梯，按亮所有樓層后離開

南陽日報 2026-05-15 17:51:56
20 跟貼 20
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2953 跟貼 2953

烏克蘭現多款低成本武器：多由手工焊接或用膠帶纏繞

紅星新聞 2026-05-15 18:47:49
1114 跟貼 1114

招牌職業隊中甲墊底，青訓人才大量流失，“中國足球之鄉”梅州究竟怎么了？

文匯報 2026-05-15 04:30:13
14 跟貼 14
武功山景區遭“臭屁蟲”圍攻？有游客調侃“張嘴能吃飽”，景區提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
1119 跟貼 1119

中國外交官坦言對歐洲很失望

環球網資訊 2026-05-15 06:49:14
128 跟貼 128

中超戰報|河南隊主場1-0力克深圳新鵬城終結兩輪不勝

大象新聞 2026-05-15 23:22:57
2 跟貼 2
張雪冠軍車型820RR暫停生產和交付，門店稱現在訂車8月提車，摩友：有問題迅速解決，我們認可這態度

極目新聞 2026-05-15 12:21:06
93 跟貼 93

住建部：地級及以上城市、縣級市全面開展城市體檢

央視新聞客戶端 2026-05-15 18:56:44
55 跟貼 55
收評：滬指、深成指均跌超1% 機器人概念逆勢爆發

財聯社 2026-05-15 15:02:22
141 跟貼 141
明天起，機票燃油附加費上調

極目新聞 2026-05-15 07:37:25
292 跟貼 292
破防瞬間！女兒看爸爸打針回來嚎啕大哭：她覺得爸爸和自己一樣痛

瀟湘晨報 2026-05-15 16:43:17
82 跟貼 82
證監會：持續深化資本市場投融資綜合改革完善投資者保護制度

證券時報 2026-05-15 19:12:03
13 跟貼 13
明陽電路：800G光模塊目前具備樣品和小批量能力已交付客戶研發和樣品訂單

財聯社 2026-05-15 18:44:45
14 跟貼 14
萌娃害怕踩草踩沙落地前秒開一字馬

瀟湘晨報 2026-05-15 21:41:14
5 跟貼 5
驚險！番禺一輛車突發自燃，保安5分鐘極速撲滅

番禺臺 2026-05-16 00:12:46
0 跟貼 0
陪伴上海人18年，滬上知名百貨公告：6月底閉店！購物卡處理方案公布

上觀新聞 2026-05-15 21:28:06
0 跟貼 0
忽視"心毒"的代價：從網絡迷因到真實過敏

碼上閑敘 2026-05-16 00:12:06
0 跟貼 0
沈陽長客總站被曝光后，整改動真格了！

沈陽公交網小林 2026-05-16 00:17:46
0 跟貼 0

全市中到大雨，局部暴雨！有雷電！濟南將開啟“雨雨雨”模式

全市中到大雨，局部暴雨！有雷電！濟南將開啟“雨雨雨”模式

齊魯壹點

2026-05-15 22:08:24

印度自取其辱，專挑中美的大日子舉辦金磚會議，王毅外長直接不去

印度自取其辱，專挑中美的大日子舉辦金磚會議，王毅外長直接不去

生活魔術專家

2026-05-15 16:18:18

馬斯克兒子四個月婚姻破裂，兩年后產女并愛上男DJ

馬斯克兒子四個月婚姻破裂，兩年后產女并愛上男DJ

李橑在北漂

2026-05-15 14:26:39

謝霆鋒北京街頭騎行等紅燈被偶遇，側顏帥炸了，這狀態哪像44歲

謝霆鋒北京街頭騎行等紅燈被偶遇，側顏帥炸了，這狀態哪像44歲

嘴角上翹的弧度

2026-05-14 02:53:32

零跑汽車：一季度營收同比增8%，凈虧損擴大至3.9億元

零跑汽車：一季度營收同比增8%，凈虧損擴大至3.9億元

澎湃新聞

2026-05-15 20:34:26

廣東記者質疑杜鋒：整個賽季，都沒有將奎因放在合適的位置

廣東記者質疑杜鋒：整個賽季，都沒有將奎因放在合適的位置

體育哲人

2026-05-15 19:54:24

6月喜迎財神上門！事業開新局，順風順水滿堂生輝的三大生肖！

6月喜迎財神上門！事業開新局，順風順水滿堂生輝的三大生肖！

毅談生肖

2026-05-13 11:18:00

日本突發強震

農民日報

2026-05-15 20:20:17

5萬人怒砸東京街，高市早苗終于服軟認慫，中方冷回：不糾錯免談

5萬人怒砸東京街，高市早苗終于服軟認慫，中方冷回：不糾錯免談

泠泠說史

2026-05-14 21:52:49

“給兒子吃得大腦缺氧了！”一頓全碳水早餐，暴露了寶媽的低認知

“給兒子吃得大腦缺氧了！”一頓全碳水早餐，暴露了寶媽的低認知

妍妍教育日記

2026-05-14 13:30:26

明星卸妝后，曾黎邋遢憔悴，田曦薇像無眉大俠，黃曉明撞臉大衣哥

明星卸妝后，曾黎邋遢憔悴，田曦薇像無眉大俠，黃曉明撞臉大衣哥

流云隨風去遠方

2026-05-13 08:12:48

國安4-2戰勝海牛，主帥：我們本應取得3連勝

國安4-2戰勝海牛，主帥：我們本應取得3連勝

余憁搞笑段子

2026-05-15 23:12:24

馬斯克2個月連發26條種族帖，只為攻擊諾蘭2.5億新片選角

馬斯克2個月連發26條種族帖，只為攻擊諾蘭2.5億新片選角

熱搜摘要官

2026-05-14 06:45:33

馬斯克點贊，宇樹科技“載人機甲”的驚天一躍

馬斯克點贊，宇樹科技“載人機甲”的驚天一躍

零態

2026-05-14 16:12:40

秦嶺摩托車男子被撞死，肇事者只能賠18萬：162萬缺口，誰來填？

秦嶺摩托車男子被撞死，肇事者只能賠18萬：162萬缺口，誰來填？

匹夫來搞笑

2026-05-15 17:43:05

終結日本混雙冠軍夢！星馳組合2-0晉級，泰國賽四強國羽半壁江山

終結日本混雙冠軍夢！星馳組合2-0晉級，泰國賽四強國羽半壁江山

釘釘陌上花開

2026-05-15 18:34:19

花生再次被關注！調查發現:糖尿病常吃花生不過半年或有4好處

花生再次被關注！調查發現:糖尿病常吃花生不過半年或有4好處

芹姐說生活

2026-05-15 23:37:01

美國人評選朝鮮戰爭8大名將麥克阿瑟第六，彭總第二，誰是第一？

美國人評選朝鮮戰爭8大名將麥克阿瑟第六，彭總第二，誰是第一？

超人強動物俱樂部

2026-05-15 17:06:47

馬斯克陪特朗普來華公務訪問，78歲母親卻在上海搶了風頭

馬斯克陪特朗普來華公務訪問，78歲母親卻在上海搶了風頭

林子說事

2026-05-15 14:13:33

CBA最新消息！廣東隊拒絕買斷王少杰，北控男籃要價逼退朱芳雨！

CBA最新消息！廣東隊拒絕買斷王少杰，北控男籃要價逼退朱芳雨！

緋雨兒

2026-05-15 08:28:40

中國人工智能學會

中國人工智能學會網易官方賬號

4039文章數 1489關注度

往期回顧全部

科技要聞

直降千元起步！蘋果華為率先開啟618讓利

頭條要聞

特朗普稱中方同意購買200架波音飛機外交部回應

頭條要聞

特朗普稱中方同意購買200架波音飛機外交部回應

體育要聞

德約科維奇買的球隊，從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃？

財經要聞

騰訊掉隊，馬化騰戳破真相

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

手機

游戲

家居

健康

房產要聞

老黃埔熱銷之下，珠江春，為何去化僅3成？

手機要聞

華為Pura 90 Pro系列獲鴻蒙HarmonyOS 6.1.0.120 SP30升級

PS5史詩級更新！全新功能上線測試版

家居要聞

110㎡淡而有致的生活表達

精神奢享對話塔尖需求
內在自敘，無域有方
極簡主義下的居住場域與空間

專家揭秘干細胞回輸的安全風險

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：色综合久久久久8天国| 久久国产劲暴∨内射| 国产精品一二| 一二三四中文字幕日韩乱码| 久久精品国产99久久久小说| 国产免费爽爽视频| 精品无码人妻一区二区三区品| 视频一区国产第一页| 韩日乱伦| 国产乱人伦| 直接黄91麻豆网站| 一区二区三区极品销魂| 久久久久国产精品人妻aⅴ免费| 好男人官网资源在线观看| 亚洲天堂精品一区| 最新在线中文字幕| 日韩欧美国产精品| 91久久久久无码精品露脸| 亚洲一区综合图区| 人妻无码中文久久久久专区| 国产suv精品一区二区四| 日韩偷拍一区二区| 中文字幕乱码亚洲中文在线| 日韩精品中文字幕一区| 全部无卡免费的毛片在线看| 免费精品一区二区中文字幕| 国产婷婷综合在线视频中文| 色猫咪av在线网址| 日产2021免费一二三四区在线 | 免费在线观看av播放| 99热成人精品热久久| 亚洲欧美日本A∨在线观看 | 中文av不卡| 衣服被扒开强摸双乳18禁网站| 欧亚乱色一区二区三区| 乌苏市| 亚洲欧美日韩中文字幕一区二区三区| 国产精品久久久久久久久免费无码| 日韩一欧美内射在线观看| 人妻无码专区一区二区三区| 国产精品视频2020年最新视频|

<s id="bbtx5"></s>

<p id="bbtx5"><li id="bbtx5"></li></p>