<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      FlashAR:僅用0.05%數(shù)據(jù),讓預(yù)訓(xùn)練好的自回歸圖像模型飛起來

      0
      分享至




      背景:自回歸圖像生成的崛起與推理瓶頸

      大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領(lǐng)域。把圖像用視覺分詞器編碼成離散 token,再一個(gè)接一個(gè)的預(yù)測出來 —— 這就是自回歸(AR)圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成質(zhì)量已經(jīng)全面逼近甚至超過了擴(kuò)散模型。

      但 AR 模型有個(gè)繞不開的問題:慢。標(biāo)準(zhǔn)的 raster-scan 解碼從左到右、從上到下,一步只出一個(gè) token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播,單卡耗時(shí)超過兩分鐘。延遲隨分辨率線性增長,GPU 的并行算力也用不起來 —— 高分辨率和實(shí)時(shí)場景下,基本沒法實(shí)際部署。

      現(xiàn)有加速方案

      為了突破這一瓶頸,研究者們已經(jīng)探索了多種加速策略,但都面臨不同的局限:

      • 重新設(shè)計(jì)生成范式:例如如 VAR 的 "下一尺度預(yù)測"、NAR 的 "近鄰預(yù)測"、PAR 的分組并行解碼,雖然能大幅降低解碼步數(shù),但這些方法需要從頭預(yù)訓(xùn)練,無法復(fù)用已有的大規(guī)模預(yù)訓(xùn)練 AR 模型,訓(xùn)練成本高昂。
      • 離散擴(kuò)散適配:例如 Emu3.5 原文采用的 DiDA,他們通過后訓(xùn)練將 AR 模型改造為支持并行解碼的離散擴(kuò)散模型。但這種方法改變了原始的預(yù)測目標(biāo),引入了預(yù)訓(xùn)練和推理之間的不一致性,往往導(dǎo)致生成質(zhì)量顯著下降,在我們的復(fù)現(xiàn)實(shí)驗(yàn)中,相同數(shù)據(jù)量,Emu3.5 在 block diffusion 后訓(xùn)練過程中,geneval 分?jǐn)?shù)會(huì)在總體會(huì)有一個(gè)比較大的 drop
      • 推測解碼:作為一種無需訓(xùn)練的加速插件,實(shí)際加速效果受限于草稿模型的接受率,提升效果相對比較有限。

      這就引出了一個(gè)關(guān)鍵的開放性問題:能否在不從頭訓(xùn)練、不改變原始預(yù)測目標(biāo)的前提下,將已有的預(yù)訓(xùn)練 AR 模型改造成高度并行的生成器,同時(shí)繼承其強(qiáng)大的生成能力?

      來自浙江大學(xué)和阿德萊德大學(xué)的研究團(tuán)隊(duì)提出了FlashAR—— 一個(gè)輕量級的后訓(xùn)練加速框架。不需要從頭訓(xùn)練,在 Emu3.5-Image-34B 模型上,僅用原始訓(xùn)練數(shù)據(jù)的 0.05%(約 8 萬張圖片),就能將預(yù)訓(xùn)練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash,實(shí)現(xiàn)最高22.9 倍的端到端加速。





      • 論文標(biāo)題:FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
      • 論文主頁:https://lxazjk.github.io/FlashAR/
      • 論文鏈接:https://arxiv.org/abs/2605.09430
      • 代碼鏈接:https://github.com/lxazjk/Emu3.5-FlashAR

      核心思路:從 "逐個(gè)生成" 到 "對角線并行"

      傳統(tǒng)的自回歸圖像生成模型遵循嚴(yán)格的光柵掃描順序 —— 從左到右、從上到下,每一步只預(yù)測水平方向的下一個(gè) token。對于一張由 H×W 個(gè) token 構(gòu)成的圖像,需要 H×W 步才能完成生成。

      FlashAR 的關(guān)鍵洞察在于:圖像天然具有 2D 結(jié)構(gòu),如果我們?yōu)槟P托略龃怪狈较虻南乱粋€(gè) token 的預(yù)測能力,在每個(gè)步驟中,水平解碼頭和垂直解碼頭并行工作,解碼步數(shù)從 H×W 驟降至 H+W-1。以 512×512 分辨率(16×16 下采樣倍率)為例,解碼步數(shù)從 1024 步直接降到 63 步。

      但要讓一個(gè)已經(jīng)訓(xùn)練好的 "水平方向" 預(yù)測模型具備 "垂直方向" 預(yù)測能力,并不容易。FlashAR 為此設(shè)計(jì)了三個(gè)關(guān)鍵組件:



      1. 中間層分支(Intermediate Branching)

      FlashAR 沒有把輕量級的 Vertical Head 接在預(yù)訓(xùn)練模型的最終層,而是從中間層分出一條支路,讓它和原有的水平預(yù)測頭并行工作。

      為什么不直接用最終層?因?yàn)榻?jīng)過完整訓(xùn)練后,最終層特征已經(jīng)更偏向原本的水平方向光柵預(yù)測任務(wù),針對這個(gè)目標(biāo)做了充分適配,但也因此不一定適合再拿來做垂直方向預(yù)測。相比之下,中間層往往還保留著更豐富的二維空間信息,用來適配新的預(yù)測方向會(huì)更自然。

      這樣的設(shè)計(jì)還有一個(gè)額外好處:從中間層分支之后,Vertical Head 可以和原有分支并行執(zhí)行,從而為整體吞吐帶來提升。

      我們也在消融實(shí)驗(yàn)里驗(yàn)證了這一點(diǎn)。具體來說,我們用 linear probing 系統(tǒng)評估了預(yù)訓(xùn)練模型不同層的特征,結(jié)果發(fā)現(xiàn),最終層特征并不是最適合做垂直預(yù)測的。這也進(jìn)一步支持了我們從中間層引出 Vertical Head 的設(shè)計(jì)。



      2. 可學(xué)習(xí)融合門(Learnable Fusion Gate)

      水平和垂直方向的預(yù)測分別建模了互補(bǔ)的空間依賴,其貢獻(xiàn)在不同空間位置上并不一致。基于這一觀察,F(xiàn)lashAR 引入了一個(gè)輕量級的 MLP 融合門,在逐位置的粒度上自適應(yīng)地融合兩個(gè)方向的預(yù)測結(jié)果,以避免簡單平均所導(dǎo)致的預(yù)測模糊。

      3. 兩階段適配訓(xùn)練(Two-Stage Adaptation)

      具體而言,訓(xùn)練過程分為兩個(gè)階段:

      • 在第一階段,凍結(jié)骨干網(wǎng)絡(luò),僅優(yōu)化垂直預(yù)測頭,以使其快速學(xué)習(xí)到有意義的預(yù)測能力;
      • 在第二階段,進(jìn)一步聯(lián)合微調(diào)垂直預(yù)測頭和骨干網(wǎng)絡(luò),使模型更好地適配新的解碼范式。這樣的漸進(jìn)式訓(xùn)練策略提升了后訓(xùn)練過程的穩(wěn)定性,并提高了數(shù)據(jù)利用效率。

      在推理階段,F(xiàn)lashAR 還部署了硬件感知的推理優(yōu)化管線:利用 FlexAttention 動(dòng)態(tài)編譯稀疏的二維近鄰注意力掩碼,配合批量化 KV 緩存更新,將理論上的并行性切實(shí)轉(zhuǎn)化為真實(shí)的加速效果。

      實(shí)驗(yàn)結(jié)果

      Emu3.5-Image-34B 加速

      將 FlashAR 擴(kuò)展到 340 億參數(shù)的 Emu3.5 模型上,是對框架能力的嚴(yán)格考驗(yàn):



      用0.05%的原始訓(xùn)練數(shù)據(jù)(80M token,約 8 萬張圖片),F(xiàn)lashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒,實(shí)現(xiàn)22.9 倍加速。更關(guān)鍵的是,加速幾乎不損失質(zhì)量。在 GenEval 基準(zhǔn)上,F(xiàn)lashAR 的 GenEval 總分僅下降 0.19 分(80.48→80.29),在顏色(+1.59)和位置(+7.00)兩個(gè)子項(xiàng)上甚至超過了原始模型。相比之下,BlockDiffusion 在相同設(shè)置下性能大幅下降至 73.83。

      ImageNet 類別條件生成

      在 ImageNet 256×256 基準(zhǔn)上,F(xiàn)lashAR 在四個(gè)模型規(guī)模(B/L/XL/XXL)上全面超越現(xiàn)有后訓(xùn)練方法 BlockDiffusion。



      值得注意的是:

      • FlashAR-L 的 IS(289.0)甚至超過了從頭訓(xùn)練的 NAR-L(263.9),而 FlashAR 僅需輕量級后訓(xùn)練;
      • FlashAR-B 達(dá)到 447.2 img/s 的吞吐量,超過了 NAR-B(419.7 img/s);
      • FlashAR 僅需25 個(gè) epoch的后訓(xùn)練 —— 只有 BlockDiffusion 訓(xùn)練量的三分之一。

      為什么 FlashAR 如此高效?

      我們總結(jié)了 FlashAR 的核心優(yōu)勢

      • 無需從頭訓(xùn)練:直接復(fù)用現(xiàn)有預(yù)訓(xùn)練 AR 模型,通過輕量后訓(xùn)練實(shí)現(xiàn)加速;
      • 數(shù)據(jù)極致高效:僅需 0.05% 的原始訓(xùn)練數(shù)據(jù);
      • 性能保持優(yōu)異:生成質(zhì)量幾乎無損,部分指標(biāo)甚至提升;
      • 框架通用性強(qiáng):在 LlamaGen(120M~1.4B)和 Emu3.5(34B)上均驗(yàn)證有效;
      • 實(shí)際加速顯著:最高 22.9 倍端到端加速。

      FlashAR 證明了一個(gè)重要觀點(diǎn):通過精心設(shè)計(jì)的后訓(xùn)練適配,可以在幾乎不改變原始模型訓(xùn)練目標(biāo)的前提下,將自回歸模型改造成高度并行的生成器,完整繼承預(yù)訓(xùn)練模型的強(qiáng)大能力。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      2.35億歐元,沃爾夫斯堡成為德甲歷史身價(jià)最高的降級球隊(duì)

      2.35億歐元,沃爾夫斯堡成為德甲歷史身價(jià)最高的降級球隊(duì)

      懂球帝
      2026-05-27 06:23:21
      嫁印度丈夫卻不愿去印度,還把公婆接來:這算盤打得真響

      嫁印度丈夫卻不愿去印度,還把公婆接來:這算盤打得真響

      阿芒娛樂說
      2026-05-27 08:03:25
      李家鼎風(fēng)波再升級,牽扯TVB小生母親,爆已分手女方獲巨額分手費(fèi)

      李家鼎風(fēng)波再升級,牽扯TVB小生母親,爆已分手女方獲巨額分手費(fèi)

      胡一舸南游y
      2026-05-27 13:42:05
      奧萊報(bào):阿根廷隊(duì)熱身賽將帶5名本土小將和卡帕爾多

      奧萊報(bào):阿根廷隊(duì)熱身賽將帶5名本土小將和卡帕爾多

      懂球帝
      2026-05-27 10:33:46
      北京衛(wèi)視首播!孫紅雷張魯一主演,配角都是實(shí)力派,再掀諜戰(zhàn)熱潮

      北京衛(wèi)視首播!孫紅雷張魯一主演,配角都是實(shí)力派,再掀諜戰(zhàn)熱潮

      樂楓電影
      2026-05-27 14:13:40
      141:0全票通過!法國連夜通過重大草案,中國這次的回應(yīng)很不一般

      141:0全票通過!法國連夜通過重大草案,中國這次的回應(yīng)很不一般

      潮鹿逐夢
      2026-05-12 17:14:43
      北大數(shù)院新院長:80后院士劉若川

      北大數(shù)院新院長:80后院士劉若川

      手工制作阿愛
      2026-05-27 12:17:19
      新加坡聯(lián)合早報(bào)急了!警告新加坡人:中國不是你的祖國。

      新加坡聯(lián)合早報(bào)急了!警告新加坡人:中國不是你的祖國。

      安安說
      2026-05-27 11:27:33
      交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

      交了智商稅才明白:這4種家電一定要買貴的,沒錢干脆先不買

      裝修秀
      2026-05-21 21:07:00
      一種被嚴(yán)重低估的“抗癌運(yùn)動(dòng)”!每天3分鐘,癌癥風(fēng)險(xiǎn)可降31%

      一種被嚴(yán)重低估的“抗癌運(yùn)動(dòng)”!每天3分鐘,癌癥風(fēng)險(xiǎn)可降31%

      方舟健客科普
      2026-05-25 19:17:19
      74歲樸槿惠罕見露面:背駝了也瘦了老態(tài)盡顯,柳榮夏依舊在她身邊

      74歲樸槿惠罕見露面:背駝了也瘦了老態(tài)盡顯,柳榮夏依舊在她身邊

      照見古今
      2026-05-26 18:46:02
      廣東住戶凌晨被狂響的門鈴嚇壞,看監(jiān)控發(fā)現(xiàn)竟是走失的小貓“求助”…

      廣東住戶凌晨被狂響的門鈴嚇壞,看監(jiān)控發(fā)現(xiàn)竟是走失的小貓“求助”…

      廣東活動(dòng)
      2026-05-26 12:16:42
      五大聯(lián)賽落幕!金球獎(jiǎng)10位熱門候選出爐:登貝萊第2,亞馬爾第5

      五大聯(lián)賽落幕!金球獎(jiǎng)10位熱門候選出爐:登貝萊第2,亞馬爾第5

      球場沒跑道
      2026-05-26 18:21:45
      徹底社死!北京女白領(lǐng)白嫖外賣,海外播放量超2000萬,公司都要完

      徹底社死!北京女白領(lǐng)白嫖外賣,海外播放量超2000萬,公司都要完

      瀲滟晴方DAY
      2026-05-27 11:03:13
      蒙古人為什么這么恨中國?四個(gè)大實(shí)話,聽完別不舒服

      蒙古人為什么這么恨中國?四個(gè)大實(shí)話,聽完別不舒服

      老鵜愛說事
      2026-05-21 15:26:51
      44歲男子突然性情大變 工作場合頻繁開低俗玩笑 竟是感染梅毒引起麻痹性癡呆

      44歲男子突然性情大變 工作場合頻繁開低俗玩笑 竟是感染梅毒引起麻痹性癡呆

      閃電新聞
      2026-05-26 16:08:50
      馬辦家變新料:張若彤錄音廖繼斌揭馬英九真實(shí)目的

      馬辦家變新料:張若彤錄音廖繼斌揭馬英九真實(shí)目的

      謝綸郵輪攝影
      2026-05-27 05:07:04
      15分鐘滅國警告!俄羅斯警告:若敢碰加里寧格勒,就讓立陶宛消失

      15分鐘滅國警告!俄羅斯警告:若敢碰加里寧格勒,就讓立陶宛消失

      奧字侃劇
      2026-05-27 11:55:23
      《主角》收官,憶秦娥自首那一刻,胡三元才懂劉紅兵為何非死不可

      《主角》收官,憶秦娥自首那一刻,胡三元才懂劉紅兵為何非死不可

      童叔不飆車
      2026-05-26 22:30:18
      人類最強(qiáng)火箭!星艦 V3 推力 9240 噸,運(yùn)力 200 噸碾壓所有對手

      人類最強(qiáng)火箭!星艦 V3 推力 9240 噸,運(yùn)力 200 噸碾壓所有對手

      粵語音樂噴泉
      2026-05-26 15:38:26
      2026-05-27 15:04:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13094文章數(shù) 142653關(guān)注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數(shù) 華為換了一把尺子

      頭條要聞

      專家:全國多地降雨量突破歷史極值 這是一種異常現(xiàn)象

      頭條要聞

      專家:全國多地降雨量突破歷史極值 這是一種異常現(xiàn)象

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財(cái)經(jīng)要聞

      ST巖石退市背后:A股“炒殼”時(shí)代終結(jié)

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統(tǒng)

      態(tài)度原創(chuàng)

      房產(chǎn)
      游戲
      旅游
      親子
      教育

      房產(chǎn)要聞

      終極塔尖資產(chǎn)!這可能是海南今年最出圈的豪宅!

      SE移除《八方旅人0》D加密

      旅游要聞

      愛上海|八仙花迎最佳觀賞期 粉色花海點(diǎn)亮初夏街頭

      親子要聞

      4歲女兒真記仇,因?yàn)榘职秩撬鷼饬耍⒓铀\(yùn)動(dòng)會(huì)還有條件

      教育要聞

      4個(gè)有效的課堂激勵(lì)手段,簡單又好用!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久中文字幕日本| 国产片av片永久免费观看| 一女被多男玩喷潮3p视频| 久久精品免视看国产成人| 亚洲精品国产品国语在线app| 亚洲国产成人久久77| 久久av青久久久av三区三区| 久久无码人妻精品一区二区三区| 18成禁人视频免费| 在线播放国产一区二区三区| 中文无码精品一区二区三区| 成年性午夜免费视频网站| 黄色网址手机国内免费在线观看| 99精品国产精品一区二区| 色五月激情五月| 污网址| 五月婷婷影院| 午夜性爱福利| 97久久国产亚洲精品超碰热| 在线天堂19| 国产哺乳奶水91在线播放| 无码不卡免费一级毛片视频| 欧美日韩高清在线观看| 亚洲精品tv久久久久久久 | 不卡的在线视频免费观看| 精品国产亚洲一区二区三区在线观看| 日韩精品视频一区二区三区 | 国产一区二区三区不卡观| 99久久人妻无码中文字幕系列| 日本乱理伦中文三区| 国产在线精品人成导航| 久久av无码精品人妻糸列| 日韩亚洲欧美三区中文字幕| 久久精品夜夜夜夜夜久久| 91乱伦视频| 国产视频网站在线观看| 国产国拍亚洲精品永久软件| 成人欧美日韩一区二区三区| 国产欧美va天堂在线观看视频下载| 99riav国产精品视频| 女同另类激情在线三区|