<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      告別冗長思維鏈!Laser用「概率疊加」重塑多模態(tài)大模型隱式推理

      0
      分享至



      本文的共同第一作者王禹博,張鈞天分別為復(fù)旦大學(xué)和中國人民大學(xué)高瓴人工智能學(xué)院的碩士研究生,主要研究方向為多模態(tài)大模型和 Reasoning 等,預(yù)計 2027 年 6 月畢業(yè),如有多模態(tài)大模型 / Reasoning 相關(guān)的優(yōu)質(zhì)發(fā)展機會,歡迎大家聯(lián)系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通訊作者是劉雨涵,目前在 MBZUAI 擔(dān)任研究員,研究方向為多模態(tài)大模型,Agent 和 Misinformation 等。

      近年來,隨著思維鏈(Chain-of-Thought)技術(shù)的普及,多模態(tài)大模型(VLMs)的多步推理能力得到了顯著提升。然而,這種依賴顯式文本的推理路徑正面臨著一個嚴(yán)重的 “信息帶寬瓶頸”:在離散的文本分詞過程中,連續(xù)且豐富的視覺細節(jié)往往會被大量丟失。

      為了解決這一痛點,由 MBZUAI、復(fù)旦大學(xué)、中國人民大學(xué)高瓴人工智能學(xué)院以及哈佛大學(xué)聯(lián)合組成的研究團隊,提出了一種名為Laser的全新隱式視覺推理范式。該研究從認知心理學(xué)中汲取靈感,引入了 “Forest-before-Trees” 的認知機制,通過動態(tài)窗口對齊學(xué)習(xí)(DWAL),首次實現(xiàn)了在隱空間中維持視覺特征的 “概率疊加” 狀態(tài)。

      研究實驗結(jié)果顯示,Laser 不僅在 6 個主流基準(zhǔn)測試中刷新了隱式推理的 SOTA 紀(jì)錄,更以極致的效率將推理 Token 消耗大幅降低了 97% 以上。這一工作為構(gòu)建更原生、更高效的多模態(tài)智能提供了全新的視角。目前,該論文已被 ACL 2026 Main Conference 正式接收。

      • 論文標(biāo)題: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
      • 論文鏈接: https://arxiv.org/pdf/2601.06803
      • 代碼倉庫: https://github.com/ybb6/laser
      • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/wybb/Laser-ScanPath



      1. 傳統(tǒng)隱式推理的困境:過早的語義坍縮

      如前文所述,純文本的思維鏈在多模態(tài)大模型中不僅面臨著視覺細節(jié)丟失的 “信息帶寬瓶頸”,還存在另一個隱患:語言先驗(Language Priors)的干擾。在生成冗長文本推理的過程中,模型往往會過度依賴固有的語言邏輯,從而產(chǎn)生幻覺或忽視了圖像本身傳遞的視覺信息。

      為了繞開顯式文本帶來的這些局限,學(xué)界近期開始探索將推理過程轉(zhuǎn)移到高維空間的 “隱式推理(Latent Space Reasoning)”。但現(xiàn)有的隱式推理方法大多依然沿用傳統(tǒng)大語言模型的自回歸框架。它們在隱空間中強迫模型進行嚴(yán)格的逐點映射 —— 即在每一步推理中,都要求模型去精準(zhǔn)預(yù)測緊接著的下一個具體概念或視覺特征。

      研究團隊指出,這種逐點映射與人類真實的視覺感知規(guī)律背道而馳。人類在觀察復(fù)雜圖像時,往往遵循 “Forest-before-Trees” 的層級性原則,即先建立對整體畫面的宏觀語義把控,再逐步聚焦于局部的特定細節(jié)。如果強迫模型在尚未完全掌握全局上下文之時,就 “過早地發(fā)生語義坍縮”,將其隱狀態(tài)死死鎖定在某個具體的局部概念上,就會引發(fā)嚴(yán)重的 “管中窺豹” 效應(yīng),使模型難以捕捉更復(fù)雜的視覺邏輯關(guān)系。

      然而,打破這種逐點約束也面臨著巨大的技術(shù)鴻溝:如果放任隱狀態(tài)保持模糊的未坍縮狀態(tài),在缺乏外部強監(jiān)督信號的情況下,模型極易迷失方向,導(dǎo)致隱空間發(fā)散為毫無意義的高熵噪聲。如何在探索全局的概率疊加與精準(zhǔn)聚焦的答案收斂之間找到平衡,成為了阻礙隱式推理發(fā)展的一大難題,而這也正是 Laser 范式要攻克的核心目標(biāo)。



      2. Laser 核心機制:動態(tài)窗口對齊與隱式疊加

      基于上述洞察,研究團隊提出了Laser(Latent Superposition for Effective Visual Reasoning)。其核心創(chuàng)新在于放棄逐點預(yù)測,轉(zhuǎn)而采用動態(tài)窗口對齊學(xué)習(xí)(Dynamic Windowed Alignment Learning, DWAL)

      • 動態(tài)語義窗口: Laser 不再只預(yù)測緊接著的下一個詞,而是讓當(dāng)前的隱狀態(tài)與一個包含未來潛在語義的動態(tài)有效窗口進行對齊。
      • 認知流的過渡: 隨著推理過程的推進,語義窗口會自然縮小,從而強制模型完成從全局探索到局部精準(zhǔn)定位的漸進式過渡。這種機制使得隱狀態(tài)能夠維持一種 “概率疊加” 狀態(tài),在編碼高層全局語義的同時,將具體細節(jié)保留在潛在狀態(tài)中。
      • 自修正與熵正則化干預(yù): 為了在缺乏外部強監(jiān)督的情況下穩(wěn)定這種無約束的學(xué)習(xí)過程,團隊設(shè)計了自修正疊加機制(Self-Refined Superposition)來構(gòu)建穩(wěn)定的軟目標(biāo)。同時,研究引入了熵正則化干預(yù)(Entropy-Regularized Intervention),當(dāng)模型不確定性較高時動態(tài)注入硬性引導(dǎo),而在模型掌握全局上下文時恢復(fù)軟疊加,形成一種隱式的課程學(xué)習(xí)。



      3. 數(shù)據(jù)基石:ScanPath 認知軌跡

      為了支撐 Laser 的隱式對齊訓(xùn)練,研究團隊摒棄了依賴顯式邊界框(Bounding Boxes)等視覺 COT 的強監(jiān)督手段,選擇通過隱式潛空間對齊來橋接感知與語言。為此研究團隊專門構(gòu)建了包含約 27 萬樣本的 ScanPath 數(shù)據(jù)集,為動態(tài)窗口對齊(DWAL)提供完美契合 “Forest-before-Trees” 規(guī)律的訓(xùn)練載體。團隊將 GPT-4o 設(shè)定為 “視覺認知引擎” ,基于全局優(yōu)先假設(shè)(Global Precedence Hypothesis)對合成數(shù)據(jù)施加了極其嚴(yán)格的生成約束:

      • 嚴(yán)格的 “全局到局部” 掃描邏輯:要求序列必須從最寬泛的全局錨點起步,逐步將焦點縮小到相關(guān)主體,并最終落腳于解答查詢所需的關(guān)鍵視覺證據(jù)上。
      • 演繹軌跡而非靜態(tài)描述:這一特定的結(jié)構(gòu)確保了數(shù)據(jù)呈現(xiàn)的是動態(tài)的視覺演繹軌跡,而不是對圖像表面元素的靜態(tài)描述。
      • 原子化與去語法化:為了提煉出高密度的 “語義錨點”,生成內(nèi)容被要求必須是原子級別的特定視覺概念,并強制剔除所有的語法修飾詞(如 is, the, a 等停用詞)。

      在這些嚴(yán)苛的要求下,ScanPath 成功將視覺推理過程解構(gòu)成了一系列離散的語義節(jié)點,并在人工評估中取得了 91.5% 的邏輯有效率。這份認知掃描路徑數(shù)據(jù),為后續(xù)模型在隱空間中維持概率疊加提供了最核心的監(jiān)督目標(biāo)。

      4. 具體方法

      動態(tài)語義窗口(Dynamic Semantic Windows)







      自修正的隱式疊加(Self-Refined Superposition)







      在傳統(tǒng)的自回歸訓(xùn)練中,損失函數(shù)強制要求模型在這一步必須 100% 預(yù)測唯一的下一個詞,這正是導(dǎo)致隱狀態(tài)發(fā)生 “過早語義坍縮” 的罪魁禍?zhǔn)住?/p>





      熵正則化干預(yù)(Entropy-Regularized Intervention)











      總體優(yōu)化目標(biāo)(Optimization Objective)

      整合以上機制,對于隱式推理鏈,DWAL 損失負責(zé)將隱式軌跡與動態(tài)語義窗口對齊:





      5. 實驗結(jié)果:以極低算力刷新 SOTA,兼具可解釋性

      研究團隊在 6 個極具挑戰(zhàn)性的視覺基準(zhǔn)測試上對 Laser 進行了全面評估。結(jié)果表明,Laser 兼顧顯式思維鏈的推理深度和隱式推理的高效推理速度。



      卓越的推理性能

      Laser 在隱式推理方法中確立了新的最優(yōu)性能(SOTA)。與隱式推理基線模型相比,Laser 的平均性能提升了 5.03%。特別是在測試視覺錯覺和幻覺的 HallusionBench 以及感知基準(zhǔn) BLINK 上,Laser 分別取得了 11.36% 和 6.21% 的漲幅。

      高效的推理效率



      尤為值得一提的是,Laser 在取得性能突破的同時,展現(xiàn)出了極高的運行效率。通過將推理過程從離散文本空間轉(zhuǎn)移到緊湊的隱空間,Laser 成功將推理 Token 的消耗減少了 97% 以上。在 BLINK 基準(zhǔn)測試中,其平均 Token 消耗量銳減至僅 6.0 個,遠遠低于顯式推理方法。

      破局隱式推理的 “黑盒化”



      與傳統(tǒng)隱式推理模型中難以解讀的連續(xù)向量不同,Laser 成功保留了高度的可解釋性。得益于其訓(xùn)練過程中維護語義疊加態(tài)的窗口對齊機制,Laser 的隱狀態(tài)可以直接通過語言模型的詞表頭進行投影解碼,從而讓研究人員能夠直觀地可視化出大模型的內(nèi)部 “認知軌跡”。

      6. 消融實驗:探索 Laser 的內(nèi)在機制

      為了驗證 Laser 各個核心組件的實際貢獻,研究團隊在論文中進行了詳盡的消融實驗。結(jié)果表明,Laser 的良好表現(xiàn)主要歸功于隱式對齊框架的設(shè)計,以及對干預(yù)機制的精準(zhǔn)把控。

      6.1 探究 Laser 為何有效:概率疊加與動態(tài)窗口

      團隊首先對動態(tài)窗口對齊學(xué)習(xí)(DWAL)的核心要素概率疊加和動態(tài)窗口進行了消融實驗。



      • 概率疊加防止語義坍縮: 當(dāng)移除 DWAL 目標(biāo),使模型退化為標(biāo)準(zhǔn)的 “預(yù)測下一個詞” 模式時,模型在細粒度感知基準(zhǔn)(如 MMVP 和 BLINK)上的性能出現(xiàn)了顯著下降。這表明,在推理過程中維持概率疊加態(tài),對于防止模型過早丟失視覺細節(jié)、避免語義坍縮至關(guān)重要。
      • 動態(tài)窗口構(gòu)建認知層級: 進一步的實驗發(fā)現(xiàn),如果取消動態(tài)窗口的縮減機制(即使用固定窗口),模型在復(fù)雜邏輯推理任務(wù)(如 MMStar)上的表現(xiàn)會明顯受損。這印證了動態(tài)窗口是實現(xiàn) “Forest-before-Trees” 機制的關(guān)鍵:通過逐步縮小語義范圍,強制模型先捕捉全局上下文,再聚焦局部細節(jié)。

      6.2 熵干預(yù)的控制:觸發(fā)干預(yù)的黃金比例

      在隱空間中,模型什么時候該自由探索,什么時候該被強制糾偏?這就需要通過熵正則化干預(yù)機制中的閾值 η 來控制。實驗對不同的熵閾值進行了對比,發(fā)現(xiàn) η=0.6 是最佳的平衡點,此時強制干預(yù)的觸發(fā)比例約為 10%。

      • 這個比例意味著,系統(tǒng)大約每 10 個 Token 會進行一次硬性糾偏。如果門檻設(shè)定過低(例如 η=0.5,觸發(fā)比例升至 18%,過于頻繁的干預(yù)會像傳統(tǒng)的強監(jiān)督一樣,限制模型在隱空間中的探索自由,導(dǎo)致邏輯推理(如 MMStar)性能下降。
      • 反之,如果門檻設(shè)定過高(例如 η=0.8 或 1.0,觸發(fā)比例低于 2.5%),系統(tǒng)幾乎不介入,模型在遇到困惑時就缺乏必要的引導(dǎo)信號,從而影響整體訓(xùn)練效果。

      恰好在維持認知靈活性與確保視覺準(zhǔn)確性之間找到了最優(yōu)解。

      結(jié)語

      Laser 的提出,為大語言模型的視覺推理指明了一條兼顧 “高效” 與 “深思” 的新道路。研究團隊期待這項工作能夠鼓勵多模態(tài)大模型的研究范式,從傳統(tǒng)的顯式文本預(yù)測,走向更符合直覺的連續(xù)隱式視覺推理。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      江浙滬對后代的托舉能到什么程度?浙江網(wǎng)友:這輩子沒為錢發(fā)過愁

      江浙滬對后代的托舉能到什么程度?浙江網(wǎng)友:這輩子沒為錢發(fā)過愁

      近史談
      2026-03-17 19:09:21
      人類肉嫩毛少,容易追擊捕食,可為啥大部分食肉野獸都不咋吃人?

      人類肉嫩毛少,容易追擊捕食,可為啥大部分食肉野獸都不咋吃人?

      向航說
      2026-04-28 00:25:03
      視頻 | 美國母親節(jié)鮮花成本上漲 美伊沖突和關(guān)稅政策為主因

      視頻 | 美國母親節(jié)鮮花成本上漲 美伊沖突和關(guān)稅政策為主因

      國際在線
      2026-05-10 08:09:42
      愛情沒有神話:趙蘭心打胎釀苦果,周媚貝文祺分手,林展翹成贏家

      愛情沒有神話:趙蘭心打胎釀苦果,周媚貝文祺分手,林展翹成贏家

      樓蘭娛姐
      2026-05-10 13:38:39
      蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

      蔣介石在他的日記里坦言:重慶談判時放走毛澤東,全是因為這2點

      倫倫媽愛歷史
      2026-05-02 10:01:48
      萊溫斯基:1995年,我的藍裙子被總統(tǒng)克林頓脫下,就在白宮辦公室

      萊溫斯基:1995年,我的藍裙子被總統(tǒng)克林頓脫下,就在白宮辦公室

      史不語
      2026-05-06 08:50:06
      放棄阿隆索!利物浦鎖定世界級名帥,斯洛特帥位岌岌可危

      放棄阿隆索!利物浦鎖定世界級名帥,斯洛特帥位岌岌可危

      瀾歸序
      2026-05-10 01:49:10
      騙了我們600年!鄭和下西洋的真實目的,根本不是找建文帝

      騙了我們600年!鄭和下西洋的真實目的,根本不是找建文帝

      老達子
      2026-05-10 06:25:03
      布拉德利?庫珀雨天攜女出街 父愛滿滿

      布拉德利?庫珀雨天攜女出街 父愛滿滿

      述家娛記
      2026-05-09 10:48:03
      兩名中國公民被烏克蘭關(guān)押一年,俄不收中方不接,處境太難了

      兩名中國公民被烏克蘭關(guān)押一年,俄不收中方不接,處境太難了

      Ck的蜜糖
      2026-05-10 10:05:58
      為什么發(fā)達國家對中國都不友好?

      為什么發(fā)達國家對中國都不友好?

      新浪財經(jīng)
      2026-05-04 07:26:54
      77歲曹查理自曝在東莞養(yǎng)老,住35平米房月租1300元,在香港沒房產(chǎn)

      77歲曹查理自曝在東莞養(yǎng)老,住35平米房月租1300元,在香港沒房產(chǎn)

      阿庫財經(jīng)
      2026-05-09 23:51:46
      一個平臺打包ChatGPT和Gemini,終身版75美元

      一個平臺打包ChatGPT和Gemini,終身版75美元

      報錯免疫體
      2026-05-10 18:02:51
      生死局!父女雙雙遭清算,中方關(guān)鍵時刻出手,杜特爾特絕處逢生

      生死局!父女雙雙遭清算,中方關(guān)鍵時刻出手,杜特爾特絕處逢生

      誮惜顏a
      2026-05-09 14:55:38
      歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學(xué)生可教

      歷史老師跌入“無人區(qū)”:某高中20人教研組,近一半無學(xué)生可教

      聽心堂
      2026-03-31 15:52:04
      韓日政府砸錢上百萬億,仍人口斷崖:冷的不是出生率,是男女關(guān)系

      韓日政府砸錢上百萬億,仍人口斷崖:冷的不是出生率,是男女關(guān)系

      日新現(xiàn)場
      2026-05-10 17:23:41
      熱搜!“安慕希百萬撤離” 網(wǎng)友:奔跑吧,王老吉!

      熱搜!“安慕希百萬撤離” 網(wǎng)友:奔跑吧,王老吉!

      LOGO研究所
      2026-05-10 16:56:56
      成語“合巹之歡”中,巹字怎么讀,是什么意思,有什么典故?

      成語“合巹之歡”中,巹字怎么讀,是什么意思,有什么典故?

      長風(fēng)文史
      2026-05-09 18:02:39
      法國人講述如何一眼區(qū)分“中國人”“日本人”“韓國人”的?

      法國人講述如何一眼區(qū)分“中國人”“日本人”“韓國人”的?

      日本物語
      2026-03-15 20:34:37
      當(dāng)年23個70后一把手,團干14人,費高云是機關(guān)內(nèi)逐級晉升者

      當(dāng)年23個70后一把手,團干14人,費高云是機關(guān)內(nèi)逐級晉升者

      江南江南
      2026-05-10 11:02:41
      2026-05-10 18:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12957文章數(shù) 142647關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      面對中方強硬態(tài)度 世界杯中國轉(zhuǎn)播費從3億美元腰斬

      頭條要聞

      面對中方強硬態(tài)度 世界杯中國轉(zhuǎn)播費從3億美元腰斬

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學(xué)畢業(yè)了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      旅游
      教育
      軍事航空

      藝術(shù)要聞

      中國民生銀行總行新大樓掛牌!北京CBD“竹樓”成地標(biāo)

      炸裂!熊孩子刮花6張PS5光盤 家長僅200元打發(fā)了事

      旅游要聞

      519中國旅游日 | “博學(xué)知行”惠民開啟!

      教育要聞

      小升初必考!梯形面積的計算技巧!

      軍事要聞

      伊朗革命衛(wèi)隊深夜警告

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 中文字幕精品亚洲无线码二区| 妖精视频一区二区| 久久久久高潮毛片免费全部播放| 亚洲一区丝袜在线观看| 亚洲中文字幕av无码区| 热久久这里是精品6免费观看| 国产精品美女免费无遮挡| 日韩在线观看a| 情欲少妇人妻100篇| 亚洲三级人妻| 久久狠狠高潮亚洲精品暴力打| 精品人妻无码视频中文字幕一区二区三区 | 中文国产乱码在线人妻一区二区 | 国产精品久久国产精麻豆99网站| 中文字幕精品久久久久人妻红杏ⅰ | 五月丁香婷婷综合网| 亚洲成人日韩av一区| 色婷婷电影网| 亚洲一区二区三区自拍高清| 蜜臂Av| 鲁丝一区鲁丝二区鲁丝三区| 成人精品视频一区二区三区尤物| 国产乱人激情H在线观看| 一本色综合久久| 久久久99精品成人片中文字幕| 日韩成人极品在线内射3p蜜臀| 亚洲乱码二区| 亚洲精品一区二区三区蜜臀| 久久这里只有精品视频66| 亚洲精品国产专区91在线| 9久9久热精品视频在线观看| 欧美日韩区1区2区3区| 乱子伦一区二区三区| av三区在线| 中文字幕日本最新乱码视频| 久久激情人妻中文字幕| 中文字幕午夜AV福利片| 男人的天堂免费一区二区视频 | 国产无套乱子伦精彩是白视频| 小12萝8禁用铅笔自慰喷水| 在线看片无码永久免费视频|