網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，何愷明團(tuán)隊新作，「嵌入式語言流」ELF來了

2026-05-13 11:40:12　來源: 機(jī)器之心Pro

河北舉報

分享至

機(jī)器之心編輯部

「語言是離散的，但語言模型不一定是。」

去年，一個名為 LLaDA 的項目在 AI 圈引發(fā)了不小的討論。這個基于「掩碼擴(kuò)散」原理的語言模型，宣稱在若干基準(zhǔn)測試上能與同規(guī)模的自回歸大模型（即 GPT 為代表的逐字生成模型）一較高下。

消息一出，擴(kuò)散語言模型（Diffusion Language Model，DLM）這個此前略顯小眾的研究方向，突然進(jìn)入了更多人的視野。

我們知道，文字是離散的 token，而擴(kuò)散模型天然擅長處理連續(xù)數(shù)據(jù)，這讓視覺生成領(lǐng)域的主流技術(shù)，天然地難以運(yùn)用在語言大模型上。

而在 LLaDA 說明擴(kuò)散模型可行后，各路團(tuán)隊相繼跟進(jìn)。研究者們普遍承認(rèn)，擴(kuò)散模型在文本生成上確實大有潛力 —— 它天然支持并行解碼，理論上可以比逐字輸出的自回歸模型快得多，也更容易實現(xiàn)「填空」、「雙向修改」等自回歸模型難以完成的任務(wù)。

在這一大方向上，研究者走出了兩條路：

離散擴(kuò)散語言模型（Discrete DLM）：直接在 token 空間里定義擴(kuò)散過程，比如用 MASK 遮蓋 token 再逐步還原（MDLM）、或者把 token 往均勻分布擴(kuò)散再逐步修正（Duo）。這條路近年來一直是主流，效果更好。
連續(xù)擴(kuò)散語言模型（Continuous DLM）：先把 token 映射到連續(xù)的嵌入向量，在連續(xù)空間里做去噪，最后再轉(zhuǎn)回 token。這條路理論上更優(yōu)雅，但實際效果長期落后于離散派。

何愷明團(tuán)隊的這篇新論文則選擇了明顯更加困難的后者。

他們提出的模型叫做ELF（Embedded Language Flows，嵌入式語言流），核心思路只有一句話：把擴(kuò)散過程搬進(jìn)連續(xù)的向量空間，只在最后一步才把結(jié)果翻譯成詞

論文共一作者 Linlu Qiu 的推文

實驗結(jié)果顯示，這個思路不僅可行，效果還出人意料地好：用不到其它方法十分之一的訓(xùn)練數(shù)據(jù)，生成質(zhì)量就已經(jīng)全面領(lǐng)先。

論文標(biāo)題：ELF: Embedded Language Flows
論文地址：https://arxiv.org/pdf/2605.10938v1
代碼倉庫：https://github.com/lillian039/ELF

何愷明的答案：只在最后一步變成詞

這篇論文來自 MIT 的一支八人團(tuán)隊，其中兩位是共同第一作者（胡珂雅和 Linlu Qiu），通訊作者則是計算機(jī)視覺領(lǐng)域的標(biāo)志性人物之一 ——何愷明

何愷明的名字，對于稍微了解深度學(xué)習(xí)歷史的讀者并不陌生。2015 年，他在微軟亞洲研究院提出了殘差網(wǎng)絡(luò)（ResNet），一舉解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的瓶頸，這篇論文至今仍是 AI 領(lǐng)域被引用次數(shù)最多的論文之一，其提出的殘差連接結(jié)構(gòu)已滲透進(jìn) Transformer、AlphaGo Zero、AlphaFold 等幾乎所有現(xiàn)代 AI 系統(tǒng)。2024 年，他從 Meta AI 加盟 MIT，開始系統(tǒng)研究生成模型。

「我看到何愷明的論文，我就點進(jìn)去。」

ELF，是這支團(tuán)隊迄今在語言生成方向上最獨(dú)具一格的創(chuàng)新。

既然擴(kuò)散模型最擅長處理連續(xù)空間，何不讓它在連續(xù)空間里走完整段旅程，只在終點才做一次「翻譯」？

具體來說，ELF 的做法是這樣的：

首先，把一句話的每個詞，通過一個預(yù)訓(xùn)練好的編碼器（論文中使用的是 T5 編碼器），轉(zhuǎn)換成一組連續(xù)的高維向量。這個向量不只代表單個詞，而是捕捉了上下文語義的「語境嵌入」。

然后，用「流匹配」（Flow Matching），一種近年在圖像生成中大行其道的連續(xù)擴(kuò)散框架，在這些向量上做去噪：從一團(tuán)高斯噪聲出發(fā)，沿著學(xué)到的速度場，一步步把噪聲推向干凈的嵌入向量。

最后，也只有在最后這一步，ELF 才把去噪后的連續(xù)向量，通過一個「反嵌入層」映射回詞匯表，輸出具體的詞。

與之前的連續(xù)擴(kuò)散語言模型不同的是，ELF 在整個去噪過程中，從不中途把連續(xù)向量變回到詞的空間。不打斷流動的連續(xù)性，讓擴(kuò)散動力學(xué)有最大的自由度。而正因為全程都在向量空間里，圖像擴(kuò)散領(lǐng)域開發(fā)的各種技術(shù)可以幾乎原封不動地搬進(jìn)來使用，比如「無分類器引導(dǎo)」（Classifier-Free Guidance，CFG）。

一個網(wǎng)絡(luò)，兩種模式

ELF 設(shè)計上另一個值得一提的巧思，是用一個網(wǎng)絡(luò)同時承擔(dān)「去噪」和「解碼」兩個功能，靠一個「mode token」來切換。

訓(xùn)練時，同一個網(wǎng)絡(luò)的 80% 時間用于學(xué)習(xí)去噪（MSE 損失），剩下 20% 時間學(xué)習(xí)如何把最終的嵌入向量映射回詞（交叉熵?fù)p失）。

推理時，在最后一步之前，網(wǎng)絡(luò)一直處于去噪模式；到了最后時刻，它切換成解碼模式，將連續(xù)向量翻譯成詞輸出。這樣，不需要額外訓(xùn)練一個獨(dú)立的解碼器，整個流程簡潔而統(tǒng)一。

此外，ELF 還引入了「自條件」（Self-Conditioning）機(jī)制：網(wǎng)絡(luò)在每一步去噪時，可以把自己上一步的預(yù)測結(jié)果當(dāng)作參考輸入，而不是從零開始猜測。這不僅提高了生成質(zhì)量，還為 CFG 提供了現(xiàn)成的「條件信號」來源，幾乎不帶來額外的計算負(fù)擔(dān)。

實驗結(jié)果：用十分之一的訓(xùn)練量，碾壓對手

論文的實驗結(jié)果很有說服力。

研究者選取的基準(zhǔn)測試，是擴(kuò)散語言模型領(lǐng)域通行的標(biāo)準(zhǔn)設(shè)定：在 OpenWebText 語料庫上訓(xùn)練，用生成困惑度（Generative Perplexity，值越低越好，代表生成文本越流暢自然）和詞匯熵（Entropy，值越高越好，代表生成多樣性越豐富）衡量質(zhì)量。

ELF 只用了 32 個采樣步數(shù)就達(dá)到了困惑度 24。相比之下，目前主流的離散擴(kuò)散語言模型（MDLM、Duo 等）即便經(jīng)過專門的「蒸餾」訓(xùn)練來加速推理，在同等步數(shù)下的表現(xiàn)也不及 ELF，而 ELF 完全沒有做蒸餾。

訓(xùn)練成本的差距更加懸殊。論文統(tǒng)計，MDLM、Duo、FLM 等主流方法各自使用了約 5000 億個 Token 的訓(xùn)練數(shù)據(jù)，ELF 只用了約 450 億 ——大約是它們的十分之一

在更具實際意義的條件生成任務(wù)上，ELF 同樣表現(xiàn)突出。在 WMT14 德英機(jī)器翻譯基準(zhǔn)上，ELF 取得了 26.4 的 BLEU 分?jǐn)?shù)，超過了同等規(guī)模的自回歸模型（25.2）以及 MDLM（18.4）、CDCD（24.9）等對手。在 XSum 新聞?wù)蝿?wù)上，ELF 在 ROUGE-1、ROUGE-2、ROUGE-L 三項指標(biāo)上也均居首位。

過去兩年，擴(kuò)散語言模型的研究進(jìn)展幾乎都集中在離散空間 —— 更精巧的掩碼策略、更高效的解碼方式、更大規(guī)模的訓(xùn)練。連續(xù)擴(kuò)散路線因為與語言「離散本質(zhì)」之間存在天然張力，一直處于相對邊緣的位置。

ELF 的出現(xiàn)，提供了一個不同的參照點：連續(xù)擴(kuò)散不是語言建模的障礙，而可能是一個尚未充分開發(fā)的優(yōu)勢所在。連續(xù)空間里的流動更平滑，更容易借用圖像生成領(lǐng)域積累的技術(shù)，也更容易做引導(dǎo)和控制。ELF 在規(guī)模測試中表現(xiàn)出的良好擴(kuò)展性（從 1 億參數(shù)到 6.5 億參數(shù)，質(zhì)量持續(xù)提升），也說明這條路上仍有相當(dāng)大的空間。

當(dāng)然，ELF 目前的評估還主要停留在中等規(guī)模模型和學(xué)術(shù)基準(zhǔn)測試上。它能否在更大規(guī)模、更廣泛的任務(wù)上與當(dāng)前最強(qiáng)的自回歸大模型形成真實競爭，還有待后續(xù)驗證。但就當(dāng)下的結(jié)果而言，它至少清晰地回答了一個懸而未決的問題：

連續(xù)擴(kuò)散語言模型，似乎終于找對了方法。

更多詳情，請參閱原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.