<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      VinciCoder:多模態統一代碼生成框架和視覺反饋強化學習

      0
      分享至



      長期以來,多模態代碼生成(Multimodal Code Generation)的訓練嚴重依賴于特定任務的監督微調(SFT)。盡管這種范式在 Chart-to-code 等單一任務上取得了顯著成功 ,但其 “狹隘的訓練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發展 。同時,「SFT-only」的范式在確保代碼可執行性和高視覺保真度方面存在顯著瓶頸 。

      在此背景下,中科院 & 美團研究團隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統一多模態代碼生成模型。VinciCoder首次將強化學習的獎勵機制從文本域轉向視覺域,提出視覺強化學習(ViRL),專攻 SFT 無法解決的視覺保真度難題。

      本文提出的系統性框架VinciCoder,通過 “大規模 SFT + 粗細粒度 ViRL” 的兩階段策略,有效統一了從圖表、網頁、SVG 到科學繪圖(LaTeX、化學分子)等多樣化代碼生成任務 。



      • 論文標題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2511.00391
      • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

      數據代碼模型權重已開源。

      核心創新與技術突破

      該論文同樣對傳統 SFT 范式的局限性進行了深入分析,發現其關鍵問題在于訓練目標與最終任務之間存在 “視覺鴻溝”:

      • 目標是局部的:SFT 采用自回歸的 “下一詞元預測” 目標 ,這本質上是局部的,無法為代碼 “可執行性” 等全局屬性提供監督信號 。
      • 缺乏視覺反饋:模型在訓練時完全看不到代碼的渲染結果 。這是一個致命缺陷,因為在代碼中 “微小的修改就可能導致渲染圖像發生巨大變化” 。

      這種 “視覺 - 代碼” 監督的缺失,直接導致了兩個關鍵問題:

      • 保真度低且不可靠:模型僅在詞元層面(token-level)進行優化 ,無法保證渲染出的圖像在視覺上與輸入對齊,也無法保證代碼可以成功執行 。
      • 泛化能力差:依賴特定任務的數據集進行 SFT,難以形成一個統一的多模態代碼生成框架 。

      考慮到 SFT 的根本局限性,研究者認為必須引入一個能夠提供全局視覺反饋的機制。然而,傳統的 RL 方法依賴難以泛化的 “基于規則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機制從文本域徹底轉向視覺域

      VinciCoder 的核心思路是:用大規模、多樣化的 SFT 構建強大的代碼基礎能力 ,再通過創新的 ViRL 策略專門優化 SFT 無法觸及的視覺保真度和可執行性 。訓練框架由「1.6M 大規模 SFT 階段」和「42k 粗細粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協作,同時實現強大的代碼理解與高保真的視覺對齊。

      1. 大規模 SFT 語料庫與代碼優化任務



      研究團隊首先構建了一個包含1.6M 圖像 - 代碼對的大規模監督微調(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務,還引入 “視覺代碼優化” 的新任務 。在這項任務中,模型會接收到一個目標圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標是修正這段代碼,使其視覺輸出與目標圖像精確對齊 。這一設計極大地提升了模型在代碼層面的糾錯和優化能力,為后續的強化學習階段奠定了堅實基礎 。

      2. 從 “文本獎勵” 到 “視覺獎勵”:粗細粒度 ViRL 框架



      傳統 SFT 訓練在多模態代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環反饋 ,且無法保證代碼的全局可執行性 。

      為解決此問題,VinciCoder 引入了視覺強化學習 (ViRL) 框架。該框架摒棄了傳統強化學習中脆弱的、基于規則的 “文本獎勵” ,轉而從視覺直接獲取獎勵信號 。

      其核心突破在于一套粗 - 細粒度(Coarse-to-fine)視覺獎勵機制:

      • 渲染與編碼:模型生成的代碼被實時渲染成圖像 。
      • 粗粒度(全局):通過下采樣生成縮略圖,評估整體結構的相似性 。
      • 細粒度(局部):將高分辨率圖像分割為多個局部圖塊(patches),精確計算局部細節的保真度 。
      • ViT 獎勵模型:使用 DINOv2-L 計算渲染圖像與目標圖像在兩個粒度上的視覺相似度,作為獎勵信號。
      • 對齊獎勵:引入一個輔助的語言對齊獎勵,用于懲罰生成了錯誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
      • 策略優化:采用群組相對策略優化 (GRPO) 算法 對模型進行微調,顯著提升視覺對齊度和代碼可執行性。

      據我們所知,VinciCoder 是第一個應用強化學習(RL)來實現統一視覺代碼生成領域中 “跨領域視覺保真度” 提升的視覺語言模型

      實驗結果與性能表現

      論文在五大多模態代碼生成基準上進行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結果如下:



      實驗結果令人矚目:VinciCoder 在多個主流多模態代碼生成基準上均取得了卓越表現。

      • SOTA 性能:VinciCoder 在開源模型對比中樹立了新的 SOTA 標準 ,其性能顯著優于所有同等規模的競爭對手 。
      • 媲美閉源模型:在如 Image-to-SVG 和化學分子式生等高難度任務上,VinciCoder 展現出超越頂尖閉源模型的卓越性能 。
      • 策略有效性:消融實驗證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗證了 SFT-ViRL 兩階段策略的壓倒性優勢。



      研究意義與應用前景

      VinciCoder 的研究不僅在技術上取得了重大突破,也為多模態代碼生成領域提供了全新的研究范式:

      • 驗證 RL 新路徑:證明了 “視覺強化學習” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎勵機制從文本域成功擴展到視覺域 。
      • 統一框架的實現:打破了過去模型 “各自為戰” 的狹隘范式 ,提供了一個強大的統一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學 SMILES 在內的多樣化代碼生成任務 。
      • 高保真度獎勵機制:“粗 - 細粒度” 獎勵設計為處理高分辨率、高復雜度視覺輸入的 RL 任務提供了健壯且可擴展的解決方案 。

      結論

      VinciCoder 的核心價值并非單純地堆砌 SFT 數據,而是通過 “SFT + 粗細粒度 ViRL” 的組合,證明了 “以視覺反饋指導代碼生成” 的可行性與優越性。這一思路不僅解決了傳統 SFT 范式在可執行性與視覺保真度上的痛點,也為后續通用多模態智能體的研發提供了新的思路。

      在總體思路上,該論文的思路與 R1-Style 方法高度相關,都驗證了強化學習在提升基礎模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優化數學推理等文本任務,更可以作為連接 “視覺” 與 “代碼” 兩大模態的橋梁,解決 SFT 無法企及的跨模態對齊難題。

      更多細節請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紅場閱兵后,普京說出4年前的真相!4年前的恥辱原來是被人作局

      紅場閱兵后,普京說出4年前的真相!4年前的恥辱原來是被人作局

      阿柒的訊
      2026-05-11 19:57:13
      巴薩官方:我方法務部門正研究弗洛倫蒂諾相關言論與指控

      巴薩官方:我方法務部門正研究弗洛倫蒂諾相關言論與指控

      懂球帝
      2026-05-13 02:45:07
      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      懂球帝
      2026-05-12 07:05:06
      泡泡瑪特業績炸裂,收益最高增長80%

      泡泡瑪特業績炸裂,收益最高增長80%

      21世紀經濟報道
      2026-05-12 18:22:06
      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      快科技
      2026-05-12 11:18:38
      不忍了!小玥兒賬號風波不到24小時,汪小菲的一個舉動,全網盛贊

      不忍了!小玥兒賬號風波不到24小時,汪小菲的一個舉動,全網盛贊

      鄉野小珥
      2026-05-12 11:15:42
      A股,尾盤傳來“一個重大”信號,明天,或將迎來大變盤!

      A股,尾盤傳來“一個重大”信號,明天,或將迎來大變盤!

      夜深愛雜談
      2026-05-12 19:42:14
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      快科技
      2026-05-12 12:20:06
      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      流螢敘情
      2025-09-11 18:03:10
      上海一男子勝訴后法院強制執行4年對方仍拖欠2000多萬,河北武安法院法警:打九折每月可付200萬,不打折每月付50萬

      上海一男子勝訴后法院強制執行4年對方仍拖欠2000多萬,河北武安法院法警:打九折每月可付200萬,不打折每月付50萬

      臺州交通廣播
      2026-05-13 00:35:17
      武漢大學終于硬氣了,余思月真人曝光,她無緣繼續留在OPPO公司

      武漢大學終于硬氣了,余思月真人曝光,她無緣繼續留在OPPO公司

      平老師666
      2026-05-11 23:21:51
      英特爾股價下跌超10%,報116.405美元/股,總市值報5851億美元

      英特爾股價下跌超10%,報116.405美元/股,總市值報5851億美元

      每日經濟新聞
      2026-05-12 23:41:28
      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      風月得自難尋
      2026-05-12 06:25:42
      “到底是哪個天才想出的在北京種月季?”北京綠化帶,強得可怕!

      “到底是哪個天才想出的在北京種月季?”北京綠化帶,強得可怕!

      起喜電影
      2026-05-12 17:43:49
      央視官宣!首次直播樊振東歐冠比賽!

      央視官宣!首次直播樊振東歐冠比賽!

      乒乓樂園
      2026-05-11 22:08:58
      三名美人并排站著,你最偏愛哪一個

      三名美人并排站著,你最偏愛哪一個

      可樂談情感
      2026-05-13 01:20:36
      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      妍妍教育日記
      2026-05-10 11:50:07
      梁靖崑婆媳同框,顏值氣質不輸明星

      梁靖崑婆媳同框,顏值氣質不輸明星

      陳意小可愛
      2026-05-11 15:15:58
      光芯片行業:供需缺口長期存在,國產芯片迎來黃金替代周期

      光芯片行業:供需缺口長期存在,國產芯片迎來黃金替代周期

      新浪財經
      2026-05-12 08:51:46
      2026-05-13 03:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      親子
      游戲
      本地
      時尚
      公開課

      親子要聞

      有點東西。周寧運動空間

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

      本地新聞

      用蘇繡的方式,打開江西婺源

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 69天堂人成无码免费视频| 日韩精品原创一区二区| 超碰97人人模人人爽人人喊| 欧美成aⅴ人高清免费| 免青青草免费观看视频在线| 日韩毛片免费看| 中文字幕少妇人妻| 性色av成人精品久久| 狠狠色香婷婷久久亚洲精品| va精品在线| 亚洲VA欧美VA国产综合| 国产色网站| 国产二级看片| 国产1区2区羞羞| 国产片免费福利片永久| 青青草乱人| 欧洲熟妇色xxxx欧美老妇性| 欧美丰满熟妇性xxxx| 亚洲精品久久久久久久蜜臀老牛| 18禁极品一区二区三区| 一本色综合久久| 成年午夜精品久久久精品| 理论片午午伦夜理片久久| 国产毛片精品av一区二区| 亚洲欧美另类激情综合区| 亚州精品人妻一二三区| 美女视频黄频a免费| 久久精品国产亚洲AV外围| 四虎永久在线精品视频免费观看| 人妻口爆| 日本亚洲欧洲综合韩国欧人妻乱码| 亚洲国产毛片aaaaa无费看| 狠狠爱五月丁香亚洲综| 中文av字幕在线观看| 一本色道久久综合无码人妻| 国产乱XXXXX97国语对白| 毛片一级精油按摩无码| 无码人妻丰满熟妇啪啪网站| 久久九九日本韩国精品| 一级a一级a爱片免费免免…-百度-百度- | 中文字幕2019年最好看电视剧|