<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      挑戰擴散自回歸!字節提出視覺生成第三種路線,讓模型邊畫邊改

      0
      分享至

      • 鷺羽 發自 凹非寺
      • 量子位 | 公眾號 QbitAI

      ber!這個五一假期,我也是真夠忙的:

      自拍、電影、追劇、街頭采訪、聽音樂會,還抽空回老家結了次婚……


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw



      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      (咳咳)不賣關子了,其實以上這些,通通都是AI生成。

      但u1s1,就這逼真的眼神和動作,也太對味了!

      它們都出自字節商業化技術團隊研發的新一代視覺生成模型,更妙的是——

      它的底層架構,不是主流的擴散模型,也并非近來大火的自回歸模型,而是全新的第三條路



      這篇研究論文,提出了另一種AI視覺生成構想:

      讓AI像人類一樣畫畫,不僅可以邊畫邊改,還能復雜多畫、簡單少畫。也就是生成精煉網絡GRN(Generative Refinement Networks)。

      簡單來說,如果把AI視覺生成比作在白紙上作畫,那么現有的擴散和自回歸模型各有各的優缺點。

      先說擴散模型,作為目前最常用的視覺生成架構,還是有兩把刷子的,其所生成的視頻幾乎能夠以假亂真。

      但實則它的繪畫過程還像個笨拙的學生,無論是畫簡單的一顆蘋果,還是復雜的巴洛克壁畫,都必須老老實實一筆一筆畫,所以即使是復雜度天差地別的畫作,也要花費相同的時間步數。

      自回歸模型這邊,雖然天生具備畫面復雜度感知,但由于需要先將顏色離散化,畫作始終缺乏高頻細節。

      它還粗心大意沒有橡皮,前面一筆畫錯了,不僅不改,還會“自由發揮”越畫越離譜。

      GRN則從根本上解決了這些問題,知錯就改,可以在畫的過程中就不斷修改細化,直到滿意為止。



      比如下面這些風格多樣的頭像,都是生成精煉網絡所畫。



      再比如這些,all by GRN。



      類別生圖、文生圖、文生視頻、圖生視頻,GRN樣樣手拿把掐。

      畢竟懂的都懂,“允許犯錯、及時糾正”,這套一以貫之的思路真的很字節范兒~(doge)

      實測架構性能

      說一千道一萬,咱再來仔細實測看看。

      目前GRN T2I模型直接在HuggingFace就能體驗(
      https://huggingface.co/spaces/hanjian/GRN)。

      可以自行調整參數,比如提示詞相關性、創意發散程度等。



      先來生成一張80年代家庭照片。

      一張80年代生日派對上拍攝的全家福。一個小男孩吹滅奶油蛋糕上的蠟燭,家人圍繞在他身邊鼓掌。



      很有CCD老照片那味兒了~

      再上難度,讓GRN嘗試生成一張漫畫:

      Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
      兩名男子身著深色西裝、系紅色領帶、頭戴黑色禮帽。二人均佩戴墨鏡,手持左輪手槍,槍口直指觀者。兩人神情冷峻,著裝與氣場透著威嚴感與威懾感…



      一眼望去,配色大膽、風格鮮明,角色與構圖也搭配和諧。

      文生視頻這邊,作者開源了2B模型,同時提供了一個Discord網站Demo,大家登錄Discord之后,點擊下面這個鏈接就可以體驗:
      http://opensource.bytedance.com/discord/invite。

      在左側導航欄,可以找到GRN-T2V 2B模型,然后在聊天框輸入/generate_video [提示詞]即可。



      先來一個單人簡單場景的測試:

      A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
      一名身穿橙色上衣、戴著眼鏡的男子站在紅磚墻前,手持并展示一個深灰色的圓柱形物體。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      人物皮膚、面部細節和動作流暢度都不像是只有2B參數的模型~

      再看看一個多人舞蹈、鏡頭快速推進的例子,也沒有出現畫面畸形的情況。

      A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
      一場直播畫面中,一支韓國流行偶像團體在絢麗的舞臺燈光下登臺表演,舞步靈動富有張力,演唱著一首偏愛夜間相約主題的歌曲。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      另外,各種復雜的人物動作和鏡頭調度,也都能一步到位,還原得相當絲滑。


      視頻鏈接:https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

      妥妥成片級表現,直接給到夯!

      這就引出了新的問題——

      為什么團隊要執意跳出舒適區,探索一套全新的生成范式呢?

      AI視覺生成的第三條路

      這就源自團隊對現有主流技術路線的洞察——

      • 擴散模型:雖然生成質量高,但不夠智能。它對所有樣本,無論復雜與否,都分配相同的迭代步數,缺乏自適應能力。
      • 自回歸模型:通過似然估計,天然具有復雜度感知能力。但一方面,受限于離散token化,存在嚴重的信息損失。另一方面,存在誤差累計和誤差傳播的問題,早期錯誤無法修正,于是越錯越離譜。

      而GRN則是對二者的揚長補短,同時兼顧全局精調和內容復雜度感知。

      其核心架構包括三個部分:

      1、層次二叉樹量化(HBQ)

      首先針對自回歸模型的離散損失,HBQ采用近乎無損的離散編碼,能夠避免在壓縮過程中丟失信息,同時實現圖像與視頻的統一建模。



      具體來說,它將VAE編碼后的連續特征映射到[-1, +1]區間,然后通過二叉樹結構進行多輪二進制量化。

      這樣重建誤差就會隨著量化輪數增加逐漸被分配到更精細的量化區間,量化誤差隨著輪數指數級衰減,理論上可以實現完全無損的量化。

      最終將獲得M個二進制標簽,分別代表從粗到細的信息層次。

      其中,GRN包含兩種預測目標,GRN_ind是將通道維度的M位二進制合并成一個整數標簽進行預測,更適合簡單量化輪數少的情況;GRN_bit則是直接逐位預測二進制值,更適合量化輪次高、模型大、任務復雜的情況,比如視頻生成。

      另外,二者均采用多token并行預測,以提升生成速度。

      2、全局精煉網絡(GRN)

      至于解決誤差積累問題,GRN引入了全局精調過程,模擬人類繪畫過程,從隨機token圖開始,逐輪開始修改迭代。



      首先每一步的生成狀態都由兩部分組成:

      • 當前已經生成的內容,也就是已畫好的部分([F] token);
      • 隨機token,模擬空白畫布 ([R] token]);

      然后Transformer就會基于當前狀態,預測一個更優的token圖。

      這個過程中,GRN需要自己從當前輸入判斷哪些是畫好的[F] token,哪些是隨機的[R] token,然后對所有token都輸出一個refine后的結果。

      當然,如果GRN判斷是畫好的[F] token,傾向于復制輸出。對于[R] token,需要根據全局上下文的token推斷應該畫上什么。



      通過這個全局refine的更新機制,確定的token不斷增多,不確定的token反復改寫,就像一個畫家一樣,真正做到了邊畫邊改,生成效果也越來越好,徹底解決了自回歸模型錯誤累計、錯誤傳播的老大難問題!

      3、復雜度感知采樣

      為了避免擴散模型一刀切的計算分配方式,GRN采用熵來衡量畫面復雜度。

      計算每一步預測的平均熵,熵低意味著樣本簡單,可以分配較少的推理步數,熵高則意味著樣本復雜,需要分配更多的精煉步數。

      應用復雜度感知采樣后,在對步數最敏感、參數量最小的130M模型上,推理步數能夠從總共50步變成了20~40步,平均24步,而gFID僅僅從3.56略微上升到3.79(gFID數值越小越好),真正做到了簡單少畫、復雜多畫!

      并且,簡單的樣本20步就能搞定,復雜的樣本GRN也只分配了40步。

      基于此,實驗結果顯示,GRN在多項基準測試中均刷新了SOTA記錄。

      首先在ImageNet 256×256的圖像重建上,HBQ達到了0.56 rFID,遠超SD-VAE (0.87)、RAE (0.62)、VAR(0.85)、Open-MAGVIT2(1.17)。

      在視頻重建時,8輪HBQ效果與連續VAE基線標準相當,說明HBQ無需增加隱層通道數,就能在更高的壓縮率下逼近連續編碼質量。

      而將隱層通道從16提升至64,PSNR就會從30.40躍升至33.97,性能媲美當前最優的Wan 2.1,但比特數減少了4倍。



      在類別-圖像生成(C2I)任務中,GRN?G(2B)的FID值為1.81,IS值為299.0,超越了DiT?XL/2、SiT?XL/2、VAR?d30、LlamaGen?XXL、JiT-G主流生成模型。

      另外,相比于MaskGIT(227M),GRN?B(130M)參數量僅為前者的一半,但性能實現反超,FID從6.18降至3.56。

      這也就意味著,GRN的全局精調不僅徹底解決了AR誤差積累問題,生成質量同時還超越主流擴散模型。



      在文生圖(T2I)任務中,GRN_bit 2B在GenEval上得分0.76,超過同為2B參數的SD3 Medium、Infinity,因為2B的參數量限制,落后于其他6B~20B等大模型,不過研究人員表示,GRN這種類似語言模型的離散token建模,有很好的scaling特性,他們會在未來推出更大的模型。



      在文生視頻(T2V)任務中,2B參數的GRN最高可支持480p2~10秒高保真視頻生成,在VBench測試中,超越5B的CogVideoX、14B的Wan 2.1等模型,以及所有同規模的AR和擴散模型



      另外,消融實驗也證明了全局精調、復雜度感知模塊在GRN中的關鍵作用。

      總的來說,在同等參數量下,GRN已經實現了比擴散模型與傳統自回歸模型更聰明的生成

      它證明,在擴散和自回歸這兩條既定路徑之外,視覺生成還有新的可能。GRN同時解決了量化損失、誤差累計、復雜度感知生成的三個問題,在AR和Diffusion中間架起了一座橋梁。

      如果再腦洞大開一下,現在的dLLM或許也可以借鑒GRN的思路。

      dLLM也是一次性生成,一旦早期token出錯,后面就只能將錯就錯,如果像GRN一樣,引入全局精調,也許模型在生成文本后,還有機會推翻之前寫的內容。

      這也不失為一個好的破局之道。

      此外,GRN證明了純血離散token是能夠做好圖像和視頻生成的。從長遠來看,能夠更好地統一圖像、視頻、文本token,顯著提升模型的多模態理解與生成能力。

      相比自回歸模型,GRN重建上限更高,對抗誤差累計能力更強;相比擴散模型,GRN能更聰明地分配計算步數。GRN用優雅的設計解決了一直以來困擾自回歸和擴散模型的難題。

      論文鏈接:
      https://arxiv.org/abs/2604.13030
      代碼鏈接:
      https://github.com/MGenAI/GRN
      HuggingFace鏈接:
      https://huggingface.co/spaces/hanjian/GRN
      項目主頁:
      https://mgenai.github.io/GRN/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      米體:伊瓜因單季36球破紀錄,十年前成那不勒斯告別夜

      米體:伊瓜因單季36球破紀錄,十年前成那不勒斯告別夜

      懂球帝
      2026-05-14 22:55:13
      離譜!婚禮司儀報價800元被砍到500元 新娘還要求隨禮600元:忙活一場倒貼100元

      離譜!婚禮司儀報價800元被砍到500元 新娘還要求隨禮600元:忙活一場倒貼100元

      閃電新聞
      2026-05-14 16:23:35
      皇馬贏得了世界上最令人沮喪的勝利

      皇馬贏得了世界上最令人沮喪的勝利

      綠茵情報局
      2026-05-15 05:50:20
      重磅達成協議!巴西后腰同意加盟曼聯,周薪10萬英鎊敲定

      重磅達成協議!巴西后腰同意加盟曼聯,周薪10萬英鎊敲定

      夜白侃球
      2026-05-14 09:01:43
      醫生都驚訝:5年前確診糖尿病,如今血糖5.7,方法居然這么簡單

      醫生都驚訝:5年前確診糖尿病,如今血糖5.7,方法居然這么簡單

      敘說醫療健康
      2026-05-14 09:00:26
      全國醫院大檢查來了!國家發文:未來5年,飛檢所有醫療機構,全國清查

      全國醫院大檢查來了!國家發文:未來5年,飛檢所有醫療機構,全國清查

      華醫網
      2026-05-15 05:41:28
      曼聯2026/27主場球衣發布,球迷反應出奇一致

      曼聯2026/27主場球衣發布,球迷反應出奇一致

      籃壇第一線
      2026-05-15 01:45:44
      爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

      爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

      中國氣象愛好者
      2026-05-14 23:02:03
      “開不壞的埃安”被打臉,車主深陷維權泥潭

      “開不壞的埃安”被打臉,車主深陷維權泥潭

      車馳神往
      2026-05-12 15:57:23
      媒體人:孫銘徽沒100%康復就堅持復出,賽后傷處又腫了疼得不行

      媒體人:孫銘徽沒100%康復就堅持復出,賽后傷處又腫了疼得不行

      懂球帝
      2026-05-14 13:33:03
      一天中,最佳的性生活時間是在幾點?早上好還是晚上好?出乎意料

      一天中,最佳的性生活時間是在幾點?早上好還是晚上好?出乎意料

      荊醫生科普
      2026-05-06 20:55:04
      馬云預言成真了?如果沒有意外,2026年中國樓市的底牌將要變了

      馬云預言成真了?如果沒有意外,2026年中國樓市的底牌將要變了

      北緯的咖啡豆
      2026-05-12 09:57:22
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      文史達觀
      2026-05-13 11:29:24
      印度,第一個被AI撕碎的國家?

      印度,第一個被AI撕碎的國家?

      美第奇效應
      2026-05-14 00:02:54
      特朗普訪華首日,大陸發布統一后安排,島內學者:臺軍應消滅臺獨

      特朗普訪華首日,大陸發布統一后安排,島內學者:臺軍應消滅臺獨

      阿凱銷售場
      2026-05-15 05:45:42
      蘇超爭冠大戲:凱爾特人讀秒點球絕殺,將與哈茨上演末輪生死戰

      蘇超爭冠大戲:凱爾特人讀秒點球絕殺,將與哈茨上演末輪生死戰

      星耀國際足壇
      2026-05-14 15:37:44
      法律善意下的倫理崩塌:私生子繼承權,正在掏空中國普通家庭

      法律善意下的倫理崩塌:私生子繼承權,正在掏空中國普通家庭

      天氣觀察站
      2026-05-14 06:48:33
      隨著中國女足2-4落敗,女足亞洲杯決賽對陣浮出水面

      隨著中國女足2-4落敗,女足亞洲杯決賽對陣浮出水面

      俯身沖頂
      2026-05-14 21:23:03
      名宿喊話湖人球迷:請珍惜詹姆斯

      名宿喊話湖人球迷:請珍惜詹姆斯

      體育硬核說
      2026-05-15 00:50:53
      為什么豬沒在進化中滅絕?網友:六邊形戰士,幾乎沒有弱點

      為什么豬沒在進化中滅絕?網友:六邊形戰士,幾乎沒有弱點

      夜深愛雜談
      2026-05-13 22:38:24
      2026-05-15 07:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12625文章數 176463關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美外交盛事成"圈粉"現場 特朗普直呼"驚艷"

      頭條要聞

      媒體:中美外交盛事成"圈粉"現場 特朗普直呼"驚艷"

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      房產
      游戲
      藝術
      公開課
      軍事航空

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      R星最新動態震撼來襲!玩家集體崩潰 舅舅黨都哭了

      藝術要聞

      花園里,花叢中

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻斩一区二区三区| 亚洲乱码中文字幕综合| 精品国产乱码久久久软件下载| 亚洲99一区二区三区| 国产精品美女自慰喷水| 亚洲精品久久久久久动漫器材一区| 日韩精品免费一区二区夜夜嗨| 真人抽搐一进一出视频| 中文字幕成人在线| 在线看国产精品三级在线| 99久久亚洲综合精品成人网| 久久精品免视看成人国产| 亚洲国摸精品视频| 欧美中日韩免费观看网站| 日韩欧美综合| 91成人精品啪在线观看国产| 性色av无码一区二区三区人妻| 精品久久久久久无码专区| 国产婷婷一区二区三区| 手机在线观看AV| 东北妇女精品bbwbbw| 国产精品永久在线播放| 精品国产Ⅴ无码大片在线观看81| 日韩欧美亚洲综合久久影院| 免费现黄频在线观看国产| 色在线 | 国产| 撸色网| 亚洲无码成人| 成人福利免费在线观看| 日本一本草久国产欧美日韩| 国产精品久久久久久影视| 午夜不卡欧美AAAAAA在线观看| 西西人体做爰大胆gogo| 国产xxx| 亚洲国产精品无码久久久| 99国产精品免费观看视频| 欧美人与动另类在线| 最新亚洲中文av在线不卡| 日韩V欧美V中文在线| 日本被黑人强伦姧人妻完整版 | 亚洲国产精品乱码一区二区|