<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      將多教師沖突轉化為動態約束,破解多模態大模型推理對齊難題

      0
      分享至



      在多模態大模型(MLLM)快速發展的浪潮中,融合多模型 “集體智慧” 已成為提升模型性能的關鍵路徑,并催生了多教師知識蒸餾這一主流范式。然而,不同來源的教師模型在架構與優化上的差異,其在相似推理過程中呈現出不穩定甚至偏移的認知軌跡,即 “概念漂移”(Concept Drift)。這種多源推理分布的動態演變會將偏差與錯誤認知隱性傳遞給目標模型,進而引發邏輯沖突與生成幻覺等潛在風險。

      悉尼科技大學(UTS)研究團隊提出了一種全新的自主偏好優化框架 —— APO (Autonomous Preference Optimization)。該框架突破了傳統蒸餾對單一強教師模型的依賴,通過多流教師模型的協同機制,巧妙地將模型間的 “漂移” 轉化為動態負約束,并將 “共識” 視為正向偏好引導,系統性地解決了多模態大模型在多師蒸餾中的概念對齊難題。該工作已被 ICML 2026 正式接收。



      • 論文標題: Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments
      • 作者信息:Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
      • 作者單位:悉尼科技大學(UTS)澳大利亞人工智能研究院(AAII)
      • 論文鏈接:https://arxiv.org/abs/2510.04142
      • 項目主頁:https://xiaoyuyoung.github.io/APO/
      • 倉庫鏈接:https://github.com/XiaoyuYoung/APO
      • 數據集鏈接:https://huggingface.co/datasets/MiaoMiaoYang/CXR-MAX

      01 引言

      目前的蒸餾策略大多假設教師模型提供的是單一穩定、一致的監督信號。然而,研究團隊通過對 7 個主流 MLLM 在醫療診斷任務中的表現分析發現,這些模型在推理過程中展現出顯著的非平穩性,其推理分布會隨步驟深入而產生劇烈波動。具體而言,雖然 Qwen-VL-Max 等模型傾向于高精度且簡潔的推理,而 GPT-5 則偏好高召回率的詳盡闡述,這種互補性的發散意味著真實的推理流形潛藏在多流共識之中,而非單一強教師監督;然而,若學生模型只是簡單地模仿這些漂移的教師流,并不能自動綜合其優點,反而會因內化了各個模型的偏見而導致幻覺與語義不一致,這證明了在非平穩環境下,單純的模仿已無法實現穩健的概念對齊。

      為此,作者正式定義了非平穩多流概念對齊問題,并提出APO框架。這是一種將多流教師偏見內化為動態負約束、并將共識視為正向偏好引導,共同驅動學生模型收緊特征空間,實現穩健推理。



      圖 1:APO 整體框架。該框架通過兩階段協議將教師模型間的漂移沖突轉化為動態負約束,并結合共識合成與偏好優化,在分布演變中精煉出穩健的推理共識流形。

      02 方法

      研究團隊面向多教師蒸餾問題,首先將概念漂移理論擴展到多源 MLLM 非平穩多流概念對齊上,將多源 MLLM 蒸餾定義為非平穩條件下的約束滿足問題;其次,作者設計了兩階段協議,自主提取多源 MLLM 的共識作為正向引導,并將教師模型間相互沖突的漂移軌跡重構為動態負約束,通過多負樣本偏好優化驅動,實現穩健的概念對齊。

      多流推理漂移







      則認為發生了多流推理漂移。







      監督引導的共識合成

      在多流推理漂移框架下,研究團隊首先讓 MLLM 進行監督引導的共識合成。在這個階段,學生模型廣泛吸收所有教師模型的異構知識。通過將自身投射到多源模型能力的并集空間中,學生模型建立起了一個包容集體智慧的基礎能力基座。

      在此基礎上,研究團隊進一步利用大模型的推理能力,設計了上下文共識提取機制,將各個教師模型生成的、混合著有效信號與漂移錯誤的原始推理軌跡進行匯總,作為目標模型的參考上下文。此時,學生模型作為判別器,自主過濾掉那些缺乏跨模型支持的矛盾信息,并放大模型間的邏輯交集,最終提煉出一條高度邏輯自洽的共識軌跡。

      約束感知的偏好優化

      在提煉出邏輯自洽的共識軌跡后,APO 設計了約束感知優化進行概念對齊。這一階段的核心邏輯在于,目標模型不僅需要學習 “生成什么”(即共識軌跡),更需要明確 “避開什么”(即教師模型中固有的推理漂移)。通過最大化共識與漂移之間的邊際,模型得以針對幻覺和偏差進一步壓縮其決策邊界。





      這種優化目標強制模型滿足兩個動態條件:一方面,相對于參考模型提升共識軌跡的生成概率;另一方面,顯式壓制推理空間中的漂移模式。這一過程有效地將教師模型間的沖突從干擾噪聲轉化為強力的監督信號,在無需外部推理軌跡標注的情況下,自主勾勒出大模型魯棒的推理流形。

      03 數據集構建

      為了評估真實環境中非平穩環境的推理對齊效果,研究團隊選擇了高風險、高動態的醫療領域,胸片診斷任務。研究團隊推出了 CXR-MAX (Multi-source Alignment for X-rays) ,這是一個專為促進高風險領域多教師蒸餾研究而設計的大規模基準。CXR-MAX 擴展了著名的 MIMIC-CXR 數據集,匯集了來自 7 個不同主流 MLLM 的推理軌跡,其中包括:GPT-5, Gemini-2.5, Sonnet-4, Grok-4, Qwen-VL-MAX, GLM-4.5V 以及 Moonshot。該數據集提供了 170,982 個推理實例,涵蓋了 14 種胸部疾病,為臨床胸片任務的多教師蒸餾研究建立了大規模的實驗基座。

      04 實驗驗證



      表 1: 各個教師模型和學生模型在胸片疾病診斷任務上的的分類準確率(%)。紅色代表最優,藍色代表次優。

      為了驗證 APO 的有效性,研究團隊構建了胸部疾病分類、診斷報告生成、思維鏈一致性以及泛化性實驗。表 1 的結果表明,APO 訓練出的 7B 模型在所有疾病診斷任務中實現了 0.78 的最高平均準確率,一舉超越了包括 GPT-5 在內的所有教師模型。這一結果有力證明了,APO 賦予了緊湊型模型合成共識流形的能力,使其能夠有效整合多位教師的差異化優勢,真正實現站在巨人的肩膀上。

      特別是在實變(Con.)和水腫(Ede.)疾病預測中,教師模型間有極大的分歧,各模型間準確率落差甚至超過 70%,教師模型表現波動巨大。而在實變(Con.)、肺炎(Pna.)和水腫(Ede.)疾病預測上,7 個教師模型中達到 60% 以上準確率的教師模型僅有 5 個。相比之下,APO 訓練的學生模型在幾乎所有類別中都穩居前二,展現出極強的穩定性。APO 通過將這些劇烈發散的推理軌跡轉化為負約束,成功阻止了偏見和錯誤知識的滲透,確保了推理過程的嚴謹與可靠。

      05 結語

      APO 的提出標志著多教師蒸餾學習從 “靜態學習” 向 “動態約束” 邁出了關鍵一步。 該框架將教師模型間漂移形式化為動態負約束,將概念對齊內化為約束滿足問題,促進多模態大模型推理對齊的進一步發展,為高風險、高動態的復雜領域的模型自主演化提供了一種全新的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      醫學原創故事會
      2026-05-12 15:34:03
      2026年“端午放假通知”:4個好消息,2個壞消息,1個要注意

      2026年“端午放假通知”:4個好消息,2個壞消息,1個要注意

      小談食刻美食
      2026-05-14 07:51:29
      瓜島戰役日軍為何會慘敗?美國軍醫:他們人均排便量是美軍1.5倍

      瓜島戰役日軍為何會慘敗?美國軍醫:他們人均排便量是美軍1.5倍

      小莜讀史
      2026-04-28 07:14:32
      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      不似少年游
      2026-05-13 14:34:55
      中國女籃功勛去世!曾率隊8次奪冠,培養陳楠隋菲菲苗立杰等國手

      中國女籃功勛去世!曾率隊8次奪冠,培養陳楠隋菲菲苗立杰等國手

      老吳說體育
      2026-05-14 12:03:10
      球衣裝備網:阿迪達斯將復刻南斯拉夫隊球衣,預計2027年推出

      球衣裝備網:阿迪達斯將復刻南斯拉夫隊球衣,預計2027年推出

      懂球帝
      2026-05-15 00:30:13
      她為兒子30年不嫁,兒子墓前哭:來生還做您兒子!

      她為兒子30年不嫁,兒子墓前哭:來生還做您兒子!

      東方不敗然多多
      2026-05-14 18:01:16
      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      黯泉
      2026-04-01 17:28:39
      馬斯克用中文發帖!兒子一身新中式火了:虎頭包系“廣西制造”,優惠后338元,馬甲出自國產小眾定制品牌,定價970元

      馬斯克用中文發帖!兒子一身新中式火了:虎頭包系“廣西制造”,優惠后338元,馬甲出自國產小眾定制品牌,定價970元

      新民晚報
      2026-05-15 08:54:04
      老佛爺百貨北京門店將于5月27日閉店

      老佛爺百貨北京門店將于5月27日閉店

      界面新聞
      2026-05-14 11:15:52
      五家銀行A股IPO候場

      五家銀行A股IPO候場

      財聯社
      2026-05-15 06:30:08
      關乎臺灣問題,中國對美國攤牌了,當著特朗普面,中方把話說死了

      關乎臺灣問題,中國對美國攤牌了,當著特朗普面,中方把話說死了

      影孖看世界
      2026-05-14 22:50:57
      哈登96勝無冠歷史第二,距馬龍僅差2勝,36歲還在沖

      哈登96勝無冠歷史第二,距馬龍僅差2勝,36歲還在沖

      林子說事
      2026-05-14 12:49:18
      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      頂級大佬思維
      2026-05-09 14:23:20
      中國領空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      中國領空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      聞識
      2026-05-14 13:25:29
      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      高博新視野
      2026-05-13 07:30:17
      銷量大跌!全新奧迪Q5L改款賣不動?大降價或許是最后出路

      銷量大跌!全新奧迪Q5L改款賣不動?大降價或許是最后出路

      沙雕小琳琳
      2026-05-15 01:43:38
      收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

      收手吧!“資本家的丑孩子”,沒顏值沒本事,就別出來禍害觀眾了

      究竟誰主沉浮
      2026-03-24 02:59:41
      皇馬27歲巨星又惹事!復出被噓+送助攻自曝是第4前鋒,穆帥還來不

      皇馬27歲巨星又惹事!復出被噓+送助攻自曝是第4前鋒,穆帥還來不

      體育知多少
      2026-05-15 08:10:08
      “錢車兩空”!男子以租代購跑網約車,三年還清13.5萬,過戶前一夜車被拖走

      “錢車兩空”!男子以租代購跑網約車,三年還清13.5萬,過戶前一夜車被拖走

      網約車觀察室
      2026-05-14 10:00:49
      2026-05-15 09:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12996文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      房產
      親子
      教育
      藝術
      時尚

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      親子要聞

      “67歲自然懷孕”的天賜媽媽,現狀曝光:7年前的預言,正在應驗

      教育要聞

      “體育+數學”“體育+美育”“體育+勞動”……這位老師的體育跨學科教學,有趣又有益!

      藝術要聞

      花園里,花叢中

      看《給阿嬤的情書》,帶紙巾,別帶懂王

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠做深爱婷婷久久综合一区| 亚洲九九视频| 国产精品福利自产拍在线观看| 内射人妻视频国内| 色花堂av资源| 国产sm重味一区二区三区| av中文字幕不卡| 亚洲中文字幕久久精品品| 在线观看视频一区二区三区| 国产高清av首播原创麻豆| 亚洲国产欧美在线观看片不卡| xxxx免费| 亚洲国产精品久久久久秋霞小说| 深爱婷婷国产在线精品av| 鲁丝片一区二区三区免费| 日屄自拍| 超碰骚少妇| 国产成人亚洲综合二区| 亚洲乱码日产精品一二三 | 黄片免费看无码专区| 国产一区二区三区不卡在线看| 蜜美杏av| 国产在视频线精品视频| 亚洲成人经典| 潼关县| √天堂8资源中文在线| 黄网十三区| 精品视频1区2区| 亚洲国产另类久久久精品| 亚洲欧洲日产国码二区| 亚洲精品国产AV| 亚洲AV无码1区2区久久| 国产成人免费| 少妇做爰免费视频网站色黄| 中国极品少妇videossexhd| 香蕉久久夜色国产精品| 国产va在线观看| 无码人妻精品一区二区三区下载| 捆绑白丝粉色jk震动捧喷白浆| 麻豆亚洲国产成人精品无码区 | 久久久久久亚洲精品|