<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,何愷明團(tuán)隊新作,「嵌入式語言流」ELF來了

      0
      分享至



      機(jī)器之心編輯部

      「語言是離散的,但語言模型不一定是。」

      去年,一個名為 LLaDA 的項目在 AI 圈引發(fā)了不小的討論。這個基于「掩碼擴(kuò)散」原理的語言模型,宣稱在若干基準(zhǔn)測試上能與同規(guī)模的自回歸大模型(即 GPT 為代表的逐字生成模型)一較高下。

      消息一出,擴(kuò)散語言模型(Diffusion Language Model,DLM)這個此前略顯小眾的研究方向,突然進(jìn)入了更多人的視野。

      我們知道,文字是離散的 token,而擴(kuò)散模型天然擅長處理連續(xù)數(shù)據(jù),這讓視覺生成領(lǐng)域的主流技術(shù),天然地難以運(yùn)用在語言大模型上。

      而在 LLaDA 說明擴(kuò)散模型可行后,各路團(tuán)隊相繼跟進(jìn)。研究者們普遍承認(rèn),擴(kuò)散模型在文本生成上確實大有潛力 —— 它天然支持并行解碼,理論上可以比逐字輸出的自回歸模型快得多,也更容易實現(xiàn)「填空」、「雙向修改」等自回歸模型難以完成的任務(wù)。

      在這一大方向上,研究者走出了兩條路:

      • 離散擴(kuò)散語言模型(Discrete DLM):直接在 token 空間里定義擴(kuò)散過程,比如用 MASK 遮蓋 token 再逐步還原(MDLM)、或者把 token 往均勻分布擴(kuò)散再逐步修正(Duo)。這條路近年來一直是主流,效果更好。
      • 連續(xù)擴(kuò)散語言模型(Continuous DLM):先把 token 映射到連續(xù)的嵌入向量,在連續(xù)空間里做去噪,最后再轉(zhuǎn)回 token。這條路理論上更優(yōu)雅,但實際效果長期落后于離散派。

      何愷明團(tuán)隊的這篇新論文則選擇了明顯更加困難的后者。

      他們提出的模型叫做ELF(Embedded Language Flows,嵌入式語言流),核心思路只有一句話:把擴(kuò)散過程搬進(jìn)連續(xù)的向量空間,只在最后一步才把結(jié)果翻譯成詞



      論文共一作者 Linlu Qiu 的推文

      實驗結(jié)果顯示,這個思路不僅可行,效果還出人意料地好:用不到其它方法十分之一的訓(xùn)練數(shù)據(jù),生成質(zhì)量就已經(jīng)全面領(lǐng)先。



      • 論文標(biāo)題:ELF: Embedded Language Flows
      • 論文地址:https://arxiv.org/pdf/2605.10938v1
      • 代碼倉庫:https://github.com/lillian039/ELF

      何愷明的答案:只在最后一步變成詞

      這篇論文來自 MIT 的一支八人團(tuán)隊,其中兩位是共同第一作者(胡珂雅和 Linlu Qiu),通訊作者則是計算機(jī)視覺領(lǐng)域的標(biāo)志性人物之一 ——何愷明

      何愷明的名字,對于稍微了解深度學(xué)習(xí)歷史的讀者并不陌生。2015 年,他在微軟亞洲研究院提出了殘差網(wǎng)絡(luò)(ResNet),一舉解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的瓶頸,這篇論文至今仍是 AI 領(lǐng)域被引用次數(shù)最多的論文之一,其提出的殘差連接結(jié)構(gòu)已滲透進(jìn) Transformer、AlphaGo Zero、AlphaFold 等幾乎所有現(xiàn)代 AI 系統(tǒng)。2024 年,他從 Meta AI 加盟 MIT,開始系統(tǒng)研究生成模型。



      「我看到何愷明的論文,我就點進(jìn)去。」



      ELF,是這支團(tuán)隊迄今在語言生成方向上最獨(dú)具一格的創(chuàng)新。

      既然擴(kuò)散模型最擅長處理連續(xù)空間,何不讓它在連續(xù)空間里走完整段旅程,只在終點才做一次「翻譯」?

      具體來說,ELF 的做法是這樣的:

      首先,把一句話的每個詞,通過一個預(yù)訓(xùn)練好的編碼器(論文中使用的是 T5 編碼器),轉(zhuǎn)換成一組連續(xù)的高維向量。這個向量不只代表單個詞,而是捕捉了上下文語義的「語境嵌入」。

      然后,用「流匹配」(Flow Matching),一種近年在圖像生成中大行其道的連續(xù)擴(kuò)散框架,在這些向量上做去噪:從一團(tuán)高斯噪聲出發(fā),沿著學(xué)到的速度場,一步步把噪聲推向干凈的嵌入向量。

      最后,也只有在最后這一步,ELF 才把去噪后的連續(xù)向量,通過一個「反嵌入層」映射回詞匯表,輸出具體的詞。



      與之前的連續(xù)擴(kuò)散語言模型不同的是,ELF 在整個去噪過程中,從不中途把連續(xù)向量變回到詞的空間。不打斷流動的連續(xù)性,讓擴(kuò)散動力學(xué)有最大的自由度。而正因為全程都在向量空間里,圖像擴(kuò)散領(lǐng)域開發(fā)的各種技術(shù)可以幾乎原封不動地搬進(jìn)來使用,比如「無分類器引導(dǎo)」(Classifier-Free Guidance,CFG)。

      一個網(wǎng)絡(luò),兩種模式

      ELF 設(shè)計上另一個值得一提的巧思,是用一個網(wǎng)絡(luò)同時承擔(dān)「去噪」和「解碼」兩個功能,靠一個「mode token」來切換。

      訓(xùn)練時,同一個網(wǎng)絡(luò)的 80% 時間用于學(xué)習(xí)去噪(MSE 損失),剩下 20% 時間學(xué)習(xí)如何把最終的嵌入向量映射回詞(交叉熵?fù)p失)。



      推理時,在最后一步之前,網(wǎng)絡(luò)一直處于去噪模式;到了最后時刻,它切換成解碼模式,將連續(xù)向量翻譯成詞輸出。這樣,不需要額外訓(xùn)練一個獨(dú)立的解碼器,整個流程簡潔而統(tǒng)一。



      此外,ELF 還引入了「自條件」(Self-Conditioning)機(jī)制:網(wǎng)絡(luò)在每一步去噪時,可以把自己上一步的預(yù)測結(jié)果當(dāng)作參考輸入,而不是從零開始猜測。這不僅提高了生成質(zhì)量,還為 CFG 提供了現(xiàn)成的「條件信號」來源,幾乎不帶來額外的計算負(fù)擔(dān)。

      實驗結(jié)果:用十分之一的訓(xùn)練量,碾壓對手

      論文的實驗結(jié)果很有說服力。

      研究者選取的基準(zhǔn)測試,是擴(kuò)散語言模型領(lǐng)域通行的標(biāo)準(zhǔn)設(shè)定:在 OpenWebText 語料庫上訓(xùn)練,用生成困惑度(Generative Perplexity,值越低越好,代表生成文本越流暢自然)和詞匯熵(Entropy,值越高越好,代表生成多樣性越豐富)衡量質(zhì)量。



      ELF 只用了 32 個采樣步數(shù)就達(dá)到了困惑度 24。 相比之下,目前主流的離散擴(kuò)散語言模型(MDLM、Duo 等)即便經(jīng)過專門的「蒸餾」訓(xùn)練來加速推理,在同等步數(shù)下的表現(xiàn)也不及 ELF,而 ELF 完全沒有做蒸餾。

      訓(xùn)練成本的差距更加懸殊。論文統(tǒng)計,MDLM、Duo、FLM 等主流方法各自使用了約 5000 億個 Token 的訓(xùn)練數(shù)據(jù),ELF 只用了約 450 億 ——大約是它們的十分之一



      在更具實際意義的條件生成任務(wù)上,ELF 同樣表現(xiàn)突出。在 WMT14 德英機(jī)器翻譯基準(zhǔn)上,ELF 取得了 26.4 的 BLEU 分?jǐn)?shù),超過了同等規(guī)模的自回歸模型(25.2)以及 MDLM(18.4)、CDCD(24.9)等對手。在 XSum 新聞?wù)蝿?wù)上,ELF 在 ROUGE-1、ROUGE-2、ROUGE-L 三項指標(biāo)上也均居首位。

      過去兩年,擴(kuò)散語言模型的研究進(jìn)展幾乎都集中在離散空間 —— 更精巧的掩碼策略、更高效的解碼方式、更大規(guī)模的訓(xùn)練。連續(xù)擴(kuò)散路線因為與語言「離散本質(zhì)」之間存在天然張力,一直處于相對邊緣的位置。

      ELF 的出現(xiàn),提供了一個不同的參照點:連續(xù)擴(kuò)散不是語言建模的障礙,而可能是一個尚未充分開發(fā)的優(yōu)勢所在。連續(xù)空間里的流動更平滑,更容易借用圖像生成領(lǐng)域積累的技術(shù),也更容易做引導(dǎo)和控制。ELF 在規(guī)模測試中表現(xiàn)出的良好擴(kuò)展性(從 1 億參數(shù)到 6.5 億參數(shù),質(zhì)量持續(xù)提升),也說明這條路上仍有相當(dāng)大的空間。

      當(dāng)然,ELF 目前的評估還主要停留在中等規(guī)模模型和學(xué)術(shù)基準(zhǔn)測試上。它能否在更大規(guī)模、更廣泛的任務(wù)上與當(dāng)前最強(qiáng)的自回歸大模型形成真實競爭,還有待后續(xù)驗證。但就當(dāng)下的結(jié)果而言,它至少清晰地回答了一個懸而未決的問題:

      連續(xù)擴(kuò)散語言模型,似乎終于找對了方法。

      更多詳情,請參閱原論文。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      銀行拒絕為7歲男童開通網(wǎng)銀,其父起訴銀行,稱侵犯了孩子的平等權(quán)利和取款自由,法院:駁回

      銀行拒絕為7歲男童開通網(wǎng)銀,其父起訴銀行,稱侵犯了孩子的平等權(quán)利和取款自由,法院:駁回

      都市快報橙柿互動
      2026-05-15 23:27:22
      臺灣問題,中國對美攤牌后,魯比奧回應(yīng)了,趙少康:臺獨(dú)就會戰(zhàn)爭

      臺灣問題,中國對美攤牌后,魯比奧回應(yīng)了,趙少康:臺獨(dú)就會戰(zhàn)爭

      華史談
      2026-05-16 09:46:52
      川普在返美專機(jī)上松口談臺灣,介文汲分析內(nèi)情:要看11月以后

      川普在返美專機(jī)上松口談臺灣,介文汲分析內(nèi)情:要看11月以后

      新時光點滴
      2026-05-16 00:23:30
      果然不出所料,中方不在臺灣問題上繞彎子了,特朗普開始準(zhǔn)備退路

      果然不出所料,中方不在臺灣問題上繞彎子了,特朗普開始準(zhǔn)備退路

      華史談
      2026-05-16 09:47:13
      蘋果官宣 618 大促來了,iPhone 17 全系歷史低價

      蘋果官宣 618 大促來了,iPhone 17 全系歷史低價

      新浪財經(jīng)
      2026-05-16 06:09:32
      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      活久見,某工程公司因工程款未到賬,流動資金不足居然想出了這招

      黯泉
      2026-05-15 16:19:10
      珠三角大部和粵西沿海周末將迎大到暴雨!伴有局地強(qiáng)對流天氣

      珠三角大部和粵西沿海周末將迎大到暴雨!伴有局地強(qiáng)對流天氣

      南方都市報
      2026-05-16 10:31:04
      ISW指出,莫斯科“夸大的領(lǐng)土野心和要求完全違背戰(zhàn)場現(xiàn)實”

      ISW指出,莫斯科“夸大的領(lǐng)土野心和要求完全違背戰(zhàn)場現(xiàn)實”

      山河路口
      2026-05-15 14:06:43
      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      馬斯克訪華像回家,母親已長住上海,兒子身價萬億她還做視頻帶貨

      云舟史策
      2026-05-16 07:16:45
      美國人:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      美國人:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      抽象派大師
      2026-05-14 15:37:23
      波多野結(jié)衣公開擇偶標(biāo)準(zhǔn),想嫁給中國男人,她遠(yuǎn)比你想象的更優(yōu)秀

      波多野結(jié)衣公開擇偶標(biāo)準(zhǔn),想嫁給中國男人,她遠(yuǎn)比你想象的更優(yōu)秀

      花哥扒娛樂
      2026-05-14 20:10:50
      如今已經(jīng)不是房價跌不跌的問題了,而是新房正在“摧毀”二手房

      如今已經(jīng)不是房價跌不跌的問題了,而是新房正在“摧毀”二手房

      蜉蝣說
      2026-05-14 18:33:50
      杜鋒下課王仕鵬接任,徐杰成核心,球迷萬言書令朱芳雨沉默

      杜鋒下課王仕鵬接任,徐杰成核心,球迷萬言書令朱芳雨沉默

      林子說事
      2026-05-16 10:14:33
      關(guān)鍵時刻逃避責(zé)任!女總理宣布辭職,臨別撂下狠話看呆歐洲政壇

      關(guān)鍵時刻逃避責(zé)任!女總理宣布辭職,臨別撂下狠話看呆歐洲政壇

      究竟誰主沉浮
      2026-05-16 04:26:28
      山姆排長隊,一上架遭搶購!有商戶一天賣了9000斤,網(wǎng)友:猝不及防

      山姆排長隊,一上架遭搶購!有商戶一天賣了9000斤,網(wǎng)友:猝不及防

      上海約飯局
      2026-05-14 18:50:04
      澎湃評國少淘汰沙特:戰(zhàn)術(shù)安排充滿智慧,并彰顯個人技術(shù)能力

      澎湃評國少淘汰沙特:戰(zhàn)術(shù)安排充滿智慧,并彰顯個人技術(shù)能力

      懂球帝
      2026-05-16 09:07:33
      毛主席遺體變形變色?每年百萬美金護(hù)理費(fèi)?負(fù)責(zé)人徐靜:無稽之談

      毛主席遺體變形變色?每年百萬美金護(hù)理費(fèi)?負(fù)責(zé)人徐靜:無稽之談

      顧秋韻
      2026-05-15 02:13:46
      重磅!720萬!那老詹就不留在湖人了...

      重磅!720萬!那老詹就不留在湖人了...

      左右為籃
      2026-05-15 12:34:54
      皇馬分成兩大派系,穆里尼奧回歸治得了豪門刺頭,治不了人心散架

      皇馬分成兩大派系,穆里尼奧回歸治得了豪門刺頭,治不了人心散架

      姜大叔侃球
      2026-05-16 09:50:19
      洛陽交警通報男子駕車追尾失控造成一死兩傷:肇事司機(jī)被當(dāng)場控制

      洛陽交警通報男子駕車追尾失控造成一死兩傷:肇事司機(jī)被當(dāng)場控制

      環(huán)球網(wǎng)資訊
      2026-05-16 11:00:11
      2026-05-16 11:31:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13006文章數(shù) 142650關(guān)注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      火遍全網(wǎng)后消失 網(wǎng)紅小胖如今樣貌大變:做了心臟搭橋

      頭條要聞

      火遍全網(wǎng)后消失 網(wǎng)紅小胖如今樣貌大變:做了心臟搭橋

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經(jīng)要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      教育
      本地
      家居
      手機(jī)
      軍事航空

      教育要聞

      英國名校也扛不住了?諾丁漢大學(xué)被曝將大規(guī)模裁員,40余個專業(yè)面臨調(diào)整

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      110㎡淡而有致的生活表達(dá)

      手機(jī)要聞

      小米打頭陣、各家排隊上!國產(chǎn)安卓的UI審美要統(tǒng)一了

      軍事要聞

      聯(lián)合國安理會審議敘利亞局勢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲日韩?国产丝袜?在线精品| 性综合网| 又嫩又硬又黄又爽的视频| 国产在线你懂| 污污内射在线观看一区二区少妇| 欧美国产在线精品17p| yy6080理论亚洲一级理论久久| 国产精品久久久久久av| 亚洲一区在线成人av| 亚洲区一区二| 88国产精品视频一区二区三区| 中出极品日本女| 成 人 免费观看网站| 在线亚洲午夜理论av大片| 桃花岛亚洲成在人线AV| 中文无码天天av天天爽| 国产乱沈阳女人高潮乱叫老| 免费观看欧美性一级| 久久久久久久人妻无码中文字幕爆| 国产又色又爽又黄的在线观看视频| 5D肉蒲团之性战奶水欧美| 无遮挡高潮国产免费观看| 五月婷婷成人| 曾医生17分钟??下载| 伊人大杳蕉中文无码| 四虎国产成人免费观看| 亚洲欧洲日韩久久狠狠爱| 性生交大全免费看| 亚洲熟女VS国产对比| 国产电影一区二区三区| 国产极品嫩模在线精品| 亚洲欲色欲色XXXXX在线观看 | 中文字幕日韩有码| 免费观看在线A级毛片| 草草影院ccyy| 亚洲人成电影福利在线播放| 国产麻豆精品av在线观看| 国产一区二区三区av在线无码观看| 伊人一二三四区| 蜜臀久久精精品久久久久久噜噜| 亚洲欧洲精品一区二区|