<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      阿里開源:用凍結(jié)多模態(tài)大模型為文生圖訓(xùn)練提供高質(zhì)量Reward

      0
      分享至



      本文作者團隊來自阿里巴巴集團,共同第一作者為深度學(xué)習(xí)研究員劉錦龍和何旺貴,通訊作者為姜浩。

      用強化學(xué)習(xí)(RL)優(yōu)化文生圖模型的 prompt following 能力,是一條被廣泛驗證的路徑 —— 讓模型根據(jù) prompt 用不同隨機種子生成多張圖片,通過 reward model 計算 reward,再利用相關(guān) RL 算法優(yōu)化模型。

      這里面最核心的問題在于:reward 信號從哪來?

      傳統(tǒng)的對齊指標如 CLIP Score 粒度過粗,無法捕捉屬性綁定、空間關(guān)系、計數(shù)等復(fù)雜語義。當前一些開源的 reward 模型(PickScore、ImageReward、HPS v2 等)受限于模型規(guī)模和有限的標注數(shù)據(jù),難以為最前沿的工業(yè)級的文生圖模型提供有效反饋信號。而訓(xùn)練一個高質(zhì)量的 reward 模型往往代價不低 —— 需要耗費大量人力和成本進行標注和訓(xùn)練。

      另一方面,開源社區(qū)的多模態(tài)大模型(VLM)持續(xù)發(fā)展,這些模型在預(yù)訓(xùn)練中見過海量圖文數(shù)據(jù),本身就具備豐富的圖文對齊知識,是天然的圖文一致性 reward 信號來源。問題在于:如何把這些知識從 VLM 中高效地提取出來作為 reward?

      為此,來自阿里巴巴的研究團隊提出了PromptEcho—— 一種無需任何標注、無需訓(xùn)練 reward 模型,僅通過凍結(jié) VLM 的一次前向推理就能獲得高質(zhì)量 reward 的方法。



      • 論文:https://arxiv.org/abs/2604.12652
      • 開源代碼 & 模型權(quán)重:https://github.com/roooobotx/prompt_echo

      核心方法:「PromptEcho」

      一個直覺:如果圖畫對了,VLM 就能「復(fù)述」出 prompt

      想象一下:你根據(jù) prompt 畫了一幅畫,然后把畫給一位朋友看,然后問他「請描述這幅畫」。如果畫面忠實地描繪了「一只紅色的貓站在藍色的桌子上」,他大概率能準確復(fù)述出這些內(nèi)容。VLM 也是一樣 —— 如果生成圖像忠實遵循了 prompt,VLM 在看到圖像后就能以很高的概率(似然)逐 token 復(fù)述出原始 prompt。或者說把 prompt 的內(nèi)容「回響」(Echo)了回來,而這個復(fù)述的對數(shù)似然就是我們要找的 reward。

      反過來,如果畫面中貓的顏色搞錯了,或者桌子不見了,VLM 復(fù)述出原始 prompt 的概率就會顯著下降,reward 隨之降低。



      圖 1:PromptEcho 流程。給定生成圖像和引導(dǎo) query,凍結(jié) VLM 在 teacher-forcing 模式下計算原始 prompt 的 token 級交叉熵損失,取負值作為 reward。

      具體而言,PromptEcho 有三個輸入:



      然后,將圖像和 query 輸入凍結(jié)的 VLM,在teacher-forcing模式下(即不讓模型自由生成,而是強制輸入 prompt 的每個 token),計算 VLM 對原始 prompt 中每個 token 的預(yù)測概率。最終的 reward 就是:



      一句話總結(jié):reward = VLM 看到圖像后,能多大概率「復(fù)述」出原始 prompt。

      這個 reward 與 VLM 預(yù)訓(xùn)練的損失函數(shù)完全一致,只是優(yōu)化對象從 VLM 的模型權(quán)重變成了文生圖模型生成的圖片。這種一致性正是 PromptEcho 高效的原因,它復(fù)用了 VLM 在預(yù)訓(xùn)練中習(xí)得的圖文對齊知識。

      為什么不直接讓 VLM 打分?

      一個自然的問題是:既然用的是凍結(jié) VLM,為什么不直接輸入 prompt 和圖片讓 VLM 推理圖文一致性評分做 reward?為了回答這個問題,研究團隊設(shè)計了一個對比方法「InferScore」—— 使用同一個凍結(jié) VLM,但讓它以自回歸方式生成對圖文一致性的評分,作為 reward 信號。兩者的區(qū)別在于:

      • InferScore:讓 VLM 自回歸生成離散評分 → 受幻覺和采樣隨機性影響,reward 信號不穩(wěn)定;更關(guān)鍵的是,受限于離散打分機制,對于當前最先進的文生圖模型,VLM 經(jīng)常無法區(qū)分同一 prompt 下不同種子生成的多張圖片在 prompt following 程度上的細微差異 —— 很多時候?qū)λ袌D片都給出相同分數(shù),導(dǎo)致 reward 信號幾乎失效
      • PromptEcho:通過預(yù)訓(xùn)練損失函數(shù)計算連續(xù)的對數(shù)似然值 → 確定性、無采樣噪聲,天然具備細粒度區(qū)分能力

      后續(xù)實驗將直接驗證這一點 —— 同樣基于 Qwen3-VL-32B,PromptEcho 全面優(yōu)于 InferScore。

      實驗

      PromptEcho 在兩個當前最前沿的開源文生圖模型(Z-Image 和 QwenImage-2512)上進行了實驗,使用 Qwen3-VL-32B 作為 reward VLM。

      訓(xùn)練數(shù)據(jù)構(gòu)建。 研究團隊收集了約 10 萬張高質(zhì)量圖片,使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 為每張圖片生成約 200–400 詞的詳細描述(dense caption),涵蓋對象、屬性、空間關(guān)系、顏色、紋理等多維信息。這些 caption 構(gòu)成了 RL 訓(xùn)練的 prompt 集合。

      DenseAlignBench :密集描述場景下對前沿模型的大幅改進

      研究團隊從同源數(shù)據(jù)中劃出 2000 條不在訓(xùn)練集中的 caption,構(gòu)建了DenseAlignBench測試集。該測試集與訓(xùn)練數(shù)據(jù)同源同分布,用于直接驗證 PromptEcho 的有效性。使用 Gemini-3-flash-preview 進行成對指令遵循維度的 GSB 評估:



      在密集描述的場景下,PromptEcho 取得了對前沿模型的大幅改進。

      公開 Benchmark:指令遵循能力提升的泛化測試

      需要強調(diào)的是,以下公開 benchmark 的測試 prompt 與訓(xùn)練數(shù)據(jù)在分布上存在顯著差異 PromptEcho 沒有針對任何 benchmark 做針對性訓(xùn)練,以下結(jié)果完全反映指令遵循能力的泛化提升:



      PromptEcho 在所有公開 benchmark 上均取得了一致的提升,體現(xiàn)了其 reward 信號源自 VLM 海量預(yù)訓(xùn)練數(shù)據(jù)中的圖文對齊知識,具備跨分布、跨架構(gòu)的泛化能力。

      Reward VLM 越大越好:Scaling 有效

      為了驗證 VLM 模型本身的質(zhì)量對 PromptEcho 效果的影響,研究團隊在 Z-Image 上分別使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作為 reward VLM 進行了對比實驗:



      32B 在所有關(guān)鍵指標上領(lǐng)先 8B,表明 reward 質(zhì)量隨 VLM 規(guī)模增長。這意味著隨著開源 VLM 持續(xù)進化,PromptEcho 的效果上限也會不斷提高。

      PromptEcho vs InferScore

      同樣使用 Qwen3-VL-32B,PromptEcho 和 InferScore 的對比:



      InferScore 在 DenseAlignBench 上甚至不如 baseline。這個驗證了前面的結(jié)論:通過預(yù)訓(xùn)練損失函數(shù)計算連續(xù)對數(shù)似然值,遠比讓 VLM 自回歸生成離散評分更可靠。

      文字渲染:通用性驗證

      PromptEcho 作為通用 Reward 范式

      PromptEcho 的核心機制(VLM 交叉熵 reward)并不局限于文生圖模型的指令遵循優(yōu)化。為了驗證其通用性,研究團隊將其遷移到了一個截然不同的任務(wù):電商海報文字渲染。

      遷移過程中,PromptEcho 的核心計算完全不變,僅需適配兩個輸入:

      • 引導(dǎo) query:從通用描述(「Describe this image in detail」)改為結(jié)構(gòu)化 OCR 識別 prompt—— 要求 VLM 識別圖中所有設(shè)計 / 營銷文字,并按語義角色分類為主標題、副標題、賣點文案、其他文字
      • :從自然語言 caption 改為 JSON 格式的結(jié)構(gòu)化文字標簽(直接從編輯指令中提取)

      經(jīng)過 PromptEcho 強化學(xué)習(xí)之后,在 5000 條測試樣本上,海報生成模型全圖文字正確率從68% 提升到 75%(+7pp)。這說明 PromptEcho 是一種通用的 reward 構(gòu)建范式—— 只需調(diào)整引導(dǎo) query 和標簽格式,同一套機制就能適配不同的圖像生成模型和優(yōu)化目標,無需為每個新任務(wù)重新訓(xùn)練專用 reward 模型。

      Case 展示

      下圖展示了一些實際的 case: QwenImage-2512(Baseline)與經(jīng)過 PromptEcho 訓(xùn)練后的模型在同一 prompt 下的生成對比。QwenImage-2512 作為當前最先進的開源文生圖模型,整體指令遵循能力已經(jīng)不錯。可以看到,經(jīng)過 PromptEcho 訓(xùn)練后,模型在畫面細節(jié)、空間關(guān)系、對象計數(shù)等方面有了進一步的顯著改進。



      圖 2:QwenImage-2512 Baseline vs PromptEcho 生成結(jié)果對比。

      總結(jié)與展望

      PromptEcho 揭示了一個簡潔而深刻的洞察:VLM 的預(yù)訓(xùn)練損失函數(shù)本身就是一個高質(zhì)量的文圖對齊 reward 信號。 不需要標注數(shù)據(jù),不需要訓(xùn)練 reward 模型,直接利用開源 VLM 的一次前向推理,就能提供高質(zhì)量的指令遵循 reward 信號。

      這開辟了一條全新的 reward 構(gòu)建路徑 —— 未來隨著開源社區(qū) VLM 持續(xù)改進,PromptEcho 將獲得更高質(zhì)量的 reward 信號,帶來更好的優(yōu)化效果。

      為了方便社區(qū)的進一步研究,研究團隊已開源代碼、模型權(quán)重和 DenseAlignBench 測試集,詳見:https://github.com/roooobotx/prompt_echo。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      明知是飲鴆止渴,唐朝為何非要搞節(jié)度使?

      明知是飲鴆止渴,唐朝為何非要搞節(jié)度使?

      輿圖司馬
      2026-05-10 21:00:03
      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      細說職場
      2026-04-28 10:39:02
      美國又一郵輪暴發(fā)病毒 115人感染被隔離

      美國又一郵輪暴發(fā)病毒 115人感染被隔離

      看看新聞Knews
      2026-05-10 14:56:03
      iPhone Air 突然又降價 ,真的太狠了!

      iPhone Air 突然又降價 ,真的太狠了!

      花果科技
      2026-05-10 18:34:41
      一位94歲老人,60年不曾洗澡,2022年在好心人勸說下,他終于將自己清洗干凈。不料,不久后他去世了……

      一位94歲老人,60年不曾洗澡,2022年在好心人勸說下,他終于將自己清洗干凈。不料,不久后他去世了……

      大愛三湘
      2026-05-10 20:06:24
      1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

      1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

      莫地方
      2026-04-20 09:30:18
      趙心童、吳宜澤助陣,中國臺球俱樂部聯(lián)賽開啟職業(yè)化新征程

      趙心童、吳宜澤助陣,中國臺球俱樂部聯(lián)賽開啟職業(yè)化新征程

      新京報
      2026-05-11 09:51:10
      隨著里昂1-2,摩納哥0-1,大巴黎1-0,馬賽1-0,法甲最新積分榜出爐

      隨著里昂1-2,摩納哥0-1,大巴黎1-0,馬賽1-0,法甲最新積分榜出爐

      側(cè)身凌空斬
      2026-05-11 05:12:01
      震驚!沈陽外賣小哥全款提奧迪A6引爭議,評論炸鍋,觀點爭鋒相對

      震驚!沈陽外賣小哥全款提奧迪A6引爭議,評論炸鍋,觀點爭鋒相對

      火山詩話
      2026-05-10 09:52:37
      廣州一16歲少年穿人字拖邊走路邊看手機,腳趾碰到鋒利石塊:最初未感到劇烈疼痛,低頭才發(fā)現(xiàn)腳趾已斷裂

      廣州一16歲少年穿人字拖邊走路邊看手機,腳趾碰到鋒利石塊:最初未感到劇烈疼痛,低頭才發(fā)現(xiàn)腳趾已斷裂

      環(huán)球網(wǎng)資訊
      2026-05-11 08:04:24
      埃博拉都殺不死它!為什么蝙蝠全身是毒,自己卻一點事沒有?

      埃博拉都殺不死它!為什么蝙蝠全身是毒,自己卻一點事沒有?

      半解智士
      2026-05-07 22:55:35
      哪句話讓你突然沉默了很久?網(wǎng)友:待會有個美女加你,拒絕一下!

      哪句話讓你突然沉默了很久?網(wǎng)友:待會有個美女加你,拒絕一下!

      夜深愛雜談
      2026-04-26 07:34:39
      文班被驅(qū)逐之后,系列賽被徹底改變了

      文班被驅(qū)逐之后,系列賽被徹底改變了

      只關(guān)于籃球
      2026-05-11 11:48:10
      打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

      打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

      網(wǎng)絡(luò)易不易
      2026-05-10 11:34:41
      高市早苗好狠:趕在特朗普訪華前,給了他一刀,連中國都沒想到!

      高市早苗好狠:趕在特朗普訪華前,給了他一刀,連中國都沒想到!

      動漫里的童話
      2026-05-11 09:47:26
      浙江稠州金租男籃不敵深圳止步八強,但賽季收獲頗豐

      浙江稠州金租男籃不敵深圳止步八強,但賽季收獲頗豐

      行舟問茶
      2026-05-11 11:02:29
      3000噸級的豪橫:巴鐵用中國造潛艇在東南亞凡爾賽,有點嘚瑟

      3000噸級的豪橫:巴鐵用中國造潛艇在東南亞凡爾賽,有點嘚瑟

      健身狂人
      2026-05-10 15:20:37
      果不其然,特朗普訪華再生變故?中國提的要求,美國竟然拒絕了

      果不其然,特朗普訪華再生變故?中國提的要求,美國竟然拒絕了

      福建睿平
      2026-05-10 12:28:31
      不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄千萬年薪!

      不僅華為要謝,中國更要感謝梁孟松!為中國芯片竟放棄千萬年薪!

      優(yōu)趣紀史記
      2026-05-10 21:41:28
      0-2落后!王皓激勵:“老梁相信自己 就當輸了” 梁靖崑隨后連贏3局

      0-2落后!王皓激勵:“老梁相信自己 就當輸了” 梁靖崑隨后連贏3局

      林子說事
      2026-05-10 19:03:18
      2026-05-11 12:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12965文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

      頭條要聞

      特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學(xué)畢業(yè)了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經(jīng)要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內(nèi)車企未來勝負手,誰是出海最強"水手"?

      態(tài)度原創(chuàng)

      手機
      本地
      親子
      房產(chǎn)
      藝術(shù)

      手機要聞

      控制成本 三星Galaxy S27或引入京東方供貨屏幕

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      fsh值如何降下來?卵子質(zhì)量不好要調(diào)理卵巢嗎?

      房產(chǎn)要聞

      低價甩賣!海口這個地標商業(yè),無人接盤!

      藝術(shù)要聞

      2026中央美術(shù)學(xué)院博士生畢業(yè)作品選

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 午夜免费视频国产在线| jizz国产| 精品国产免费观看一区| 安岳县| 青青草成人免费自拍视频| 天堂av在线一区二区| 亚洲精品成人久久av| 国产精品av一区二区| 亚洲婷婷综合色高清在线| 国产乱子伦精品视频| 七妺福利精品导航大全| 久久精品国产亚洲精品2020| 亚洲国产精品乱码一区二区| 黑人大战日本人妻嗷嗷叫| 色噜噜狠狠色综合成人网 | 久久综合综合久久狠狠狠97色 | 久久精品一区二区三区中文字幕| 男人的天堂無碼| 99久久精品美女高潮喷水| 免费无码黄十八禁网站| 亚洲男人AV天堂午夜在| 中文人妻av久久人妻水密桃| 丁香婷婷中文字幕| 亚洲色欲网| 香蕉视频在线观看www| 亚洲人成网站在线观看播放不卡| 国产乱子伦一区二区三区视频免费| 日本熟妇大乳| 国产精品www夜色影视| 午夜亚洲aⅴ无码高潮片苍井空| 激情国产一区二区三区四区| 东京热无码国产精品| 99天天操| 4虎影视国产在线观看精品| 亚洲高清最新AV网站| 国产精品秘?国产A级| 国产精品国产高清国产av| 国产成人无码综合亚洲日韩| 无码精品国产d在线观看| 大陆国语对白国产av片| 狠狠撸狠狠插|