![]()
本文的共同第一作者王禹博,張鈞天分別為復(fù)旦大學(xué)和中國人民大學(xué)高瓴人工智能學(xué)院的碩士研究生,主要研究方向為多模態(tài)大模型和 Reasoning 等,預(yù)計 2027 年 6 月畢業(yè),如有多模態(tài)大模型 / Reasoning 相關(guān)的優(yōu)質(zhì)發(fā)展機會,歡迎大家聯(lián)系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通訊作者是劉雨涵,目前在 MBZUAI 擔(dān)任研究員,研究方向為多模態(tài)大模型,Agent 和 Misinformation 等。
近年來,隨著思維鏈(Chain-of-Thought)技術(shù)的普及,多模態(tài)大模型(VLMs)的多步推理能力得到了顯著提升。然而,這種依賴顯式文本的推理路徑正面臨著一個嚴(yán)重的 “信息帶寬瓶頸”:在離散的文本分詞過程中,連續(xù)且豐富的視覺細節(jié)往往會被大量丟失。
為了解決這一痛點,由 MBZUAI、復(fù)旦大學(xué)、中國人民大學(xué)高瓴人工智能學(xué)院以及哈佛大學(xué)聯(lián)合組成的研究團隊,提出了一種名為Laser的全新隱式視覺推理范式。該研究從認知心理學(xué)中汲取靈感,引入了 “Forest-before-Trees” 的認知機制,通過動態(tài)窗口對齊學(xué)習(xí)(DWAL),首次實現(xiàn)了在隱空間中維持視覺特征的 “概率疊加” 狀態(tài)。
研究實驗結(jié)果顯示,Laser 不僅在 6 個主流基準(zhǔn)測試中刷新了隱式推理的 SOTA 紀(jì)錄,更以極致的效率將推理 Token 消耗大幅降低了 97% 以上。這一工作為構(gòu)建更原生、更高效的多模態(tài)智能提供了全新的視角。目前,該論文已被 ACL 2026 Main Conference 正式接收。
- 論文標(biāo)題: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
- 論文鏈接: https://arxiv.org/pdf/2601.06803
- 代碼倉庫: https://github.com/ybb6/laser
- 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/wybb/Laser-ScanPath
![]()
1. 傳統(tǒng)隱式推理的困境:過早的語義坍縮
如前文所述,純文本的思維鏈在多模態(tài)大模型中不僅面臨著視覺細節(jié)丟失的 “信息帶寬瓶頸”,還存在另一個隱患:語言先驗(Language Priors)的干擾。在生成冗長文本推理的過程中,模型往往會過度依賴固有的語言邏輯,從而產(chǎn)生幻覺或忽視了圖像本身傳遞的視覺信息。
為了繞開顯式文本帶來的這些局限,學(xué)界近期開始探索將推理過程轉(zhuǎn)移到高維空間的 “隱式推理(Latent Space Reasoning)”。但現(xiàn)有的隱式推理方法大多依然沿用傳統(tǒng)大語言模型的自回歸框架。它們在隱空間中強迫模型進行嚴(yán)格的逐點映射 —— 即在每一步推理中,都要求模型去精準(zhǔn)預(yù)測緊接著的下一個具體概念或視覺特征。
研究團隊指出,這種逐點映射與人類真實的視覺感知規(guī)律背道而馳。人類在觀察復(fù)雜圖像時,往往遵循 “Forest-before-Trees” 的層級性原則,即先建立對整體畫面的宏觀語義把控,再逐步聚焦于局部的特定細節(jié)。如果強迫模型在尚未完全掌握全局上下文之時,就 “過早地發(fā)生語義坍縮”,將其隱狀態(tài)死死鎖定在某個具體的局部概念上,就會引發(fā)嚴(yán)重的 “管中窺豹” 效應(yīng),使模型難以捕捉更復(fù)雜的視覺邏輯關(guān)系。
然而,打破這種逐點約束也面臨著巨大的技術(shù)鴻溝:如果放任隱狀態(tài)保持模糊的未坍縮狀態(tài),在缺乏外部強監(jiān)督信號的情況下,模型極易迷失方向,導(dǎo)致隱空間發(fā)散為毫無意義的高熵噪聲。如何在探索全局的概率疊加與精準(zhǔn)聚焦的答案收斂之間找到平衡,成為了阻礙隱式推理發(fā)展的一大難題,而這也正是 Laser 范式要攻克的核心目標(biāo)。
![]()
2. Laser 核心機制:動態(tài)窗口對齊與隱式疊加
基于上述洞察,研究團隊提出了Laser(Latent Superposition for Effective Visual Reasoning)。其核心創(chuàng)新在于放棄逐點預(yù)測,轉(zhuǎn)而采用動態(tài)窗口對齊學(xué)習(xí)(Dynamic Windowed Alignment Learning, DWAL)。
- 動態(tài)語義窗口: Laser 不再只預(yù)測緊接著的下一個詞,而是讓當(dāng)前的隱狀態(tài)與一個包含未來潛在語義的動態(tài)有效窗口進行對齊。
- 認知流的過渡: 隨著推理過程的推進,語義窗口會自然縮小,從而強制模型完成從全局探索到局部精準(zhǔn)定位的漸進式過渡。這種機制使得隱狀態(tài)能夠維持一種 “概率疊加” 狀態(tài),在編碼高層全局語義的同時,將具體細節(jié)保留在潛在狀態(tài)中。
- 自修正與熵正則化干預(yù): 為了在缺乏外部強監(jiān)督的情況下穩(wěn)定這種無約束的學(xué)習(xí)過程,團隊設(shè)計了自修正疊加機制(Self-Refined Superposition)來構(gòu)建穩(wěn)定的軟目標(biāo)。同時,研究引入了熵正則化干預(yù)(Entropy-Regularized Intervention),當(dāng)模型不確定性較高時動態(tài)注入硬性引導(dǎo),而在模型掌握全局上下文時恢復(fù)軟疊加,形成一種隱式的課程學(xué)習(xí)。
![]()
3. 數(shù)據(jù)基石:ScanPath 認知軌跡
為了支撐 Laser 的隱式對齊訓(xùn)練,研究團隊摒棄了依賴顯式邊界框(Bounding Boxes)等視覺 COT 的強監(jiān)督手段,選擇通過隱式潛空間對齊來橋接感知與語言。為此研究團隊專門構(gòu)建了包含約 27 萬樣本的 ScanPath 數(shù)據(jù)集,為動態(tài)窗口對齊(DWAL)提供完美契合 “Forest-before-Trees” 規(guī)律的訓(xùn)練載體。團隊將 GPT-4o 設(shè)定為 “視覺認知引擎” ,基于全局優(yōu)先假設(shè)(Global Precedence Hypothesis)對合成數(shù)據(jù)施加了極其嚴(yán)格的生成約束:
- 嚴(yán)格的 “全局到局部” 掃描邏輯:要求序列必須從最寬泛的全局錨點起步,逐步將焦點縮小到相關(guān)主體,并最終落腳于解答查詢所需的關(guān)鍵視覺證據(jù)上。
- 演繹軌跡而非靜態(tài)描述:這一特定的結(jié)構(gòu)確保了數(shù)據(jù)呈現(xiàn)的是動態(tài)的視覺演繹軌跡,而不是對圖像表面元素的靜態(tài)描述。
- 原子化與去語法化:為了提煉出高密度的 “語義錨點”,生成內(nèi)容被要求必須是原子級別的特定視覺概念,并強制剔除所有的語法修飾詞(如 is, the, a 等停用詞)。
在這些嚴(yán)苛的要求下,ScanPath 成功將視覺推理過程解構(gòu)成了一系列離散的語義節(jié)點,并在人工評估中取得了 91.5% 的邏輯有效率。這份認知掃描路徑數(shù)據(jù),為后續(xù)模型在隱空間中維持概率疊加提供了最核心的監(jiān)督目標(biāo)。
4. 具體方法
動態(tài)語義窗口(Dynamic Semantic Windows)
![]()
![]()
![]()
自修正的隱式疊加(Self-Refined Superposition)
![]()
![]()
![]()
在傳統(tǒng)的自回歸訓(xùn)練中,損失函數(shù)強制要求模型在這一步必須 100% 預(yù)測唯一的下一個詞,這正是導(dǎo)致隱狀態(tài)發(fā)生 “過早語義坍縮” 的罪魁禍?zhǔn)住?/p>
![]()
![]()
熵正則化干預(yù)(Entropy-Regularized Intervention)
![]()
![]()
![]()
![]()
![]()
總體優(yōu)化目標(biāo)(Optimization Objective)
整合以上機制,對于隱式推理鏈,DWAL 損失負責(zé)將隱式軌跡與動態(tài)語義窗口對齊:
![]()
![]()
5. 實驗結(jié)果:以極低算力刷新 SOTA,兼具可解釋性
研究團隊在 6 個極具挑戰(zhàn)性的視覺基準(zhǔn)測試上對 Laser 進行了全面評估。結(jié)果表明,Laser 兼顧顯式思維鏈的推理深度和隱式推理的高效推理速度。
![]()
卓越的推理性能
Laser 在隱式推理方法中確立了新的最優(yōu)性能(SOTA)。與隱式推理基線模型相比,Laser 的平均性能提升了 5.03%。特別是在測試視覺錯覺和幻覺的 HallusionBench 以及感知基準(zhǔn) BLINK 上,Laser 分別取得了 11.36% 和 6.21% 的漲幅。
高效的推理效率
![]()
尤為值得一提的是,Laser 在取得性能突破的同時,展現(xiàn)出了極高的運行效率。通過將推理過程從離散文本空間轉(zhuǎn)移到緊湊的隱空間,Laser 成功將推理 Token 的消耗減少了 97% 以上。在 BLINK 基準(zhǔn)測試中,其平均 Token 消耗量銳減至僅 6.0 個,遠遠低于顯式推理方法。
破局隱式推理的 “黑盒化”
![]()
與傳統(tǒng)隱式推理模型中難以解讀的連續(xù)向量不同,Laser 成功保留了高度的可解釋性。得益于其訓(xùn)練過程中維護語義疊加態(tài)的窗口對齊機制,Laser 的隱狀態(tài)可以直接通過語言模型的詞表頭進行投影解碼,從而讓研究人員能夠直觀地可視化出大模型的內(nèi)部 “認知軌跡”。
6. 消融實驗:探索 Laser 的內(nèi)在機制
為了驗證 Laser 各個核心組件的實際貢獻,研究團隊在論文中進行了詳盡的消融實驗。結(jié)果表明,Laser 的良好表現(xiàn)主要歸功于隱式對齊框架的設(shè)計,以及對干預(yù)機制的精準(zhǔn)把控。
6.1 探究 Laser 為何有效:概率疊加與動態(tài)窗口
團隊首先對動態(tài)窗口對齊學(xué)習(xí)(DWAL)的核心要素概率疊加和動態(tài)窗口進行了消融實驗。
![]()
- 概率疊加防止語義坍縮: 當(dāng)移除 DWAL 目標(biāo),使模型退化為標(biāo)準(zhǔn)的 “預(yù)測下一個詞” 模式時,模型在細粒度感知基準(zhǔn)(如 MMVP 和 BLINK)上的性能出現(xiàn)了顯著下降。這表明,在推理過程中維持概率疊加態(tài),對于防止模型過早丟失視覺細節(jié)、避免語義坍縮至關(guān)重要。
- 動態(tài)窗口構(gòu)建認知層級: 進一步的實驗發(fā)現(xiàn),如果取消動態(tài)窗口的縮減機制(即使用固定窗口),模型在復(fù)雜邏輯推理任務(wù)(如 MMStar)上的表現(xiàn)會明顯受損。這印證了動態(tài)窗口是實現(xiàn) “Forest-before-Trees” 機制的關(guān)鍵:通過逐步縮小語義范圍,強制模型先捕捉全局上下文,再聚焦局部細節(jié)。
6.2 熵干預(yù)的控制:觸發(fā)干預(yù)的黃金比例
在隱空間中,模型什么時候該自由探索,什么時候該被強制糾偏?這就需要通過熵正則化干預(yù)機制中的閾值 η 來控制。實驗對不同的熵閾值進行了對比,發(fā)現(xiàn) η=0.6 是最佳的平衡點,此時強制干預(yù)的觸發(fā)比例約為 10%。
- 這個比例意味著,系統(tǒng)大約每 10 個 Token 會進行一次硬性糾偏。如果門檻設(shè)定過低(例如 η=0.5,觸發(fā)比例升至 18%,過于頻繁的干預(yù)會像傳統(tǒng)的強監(jiān)督一樣,限制模型在隱空間中的探索自由,導(dǎo)致邏輯推理(如 MMStar)性能下降。
- 反之,如果門檻設(shè)定過高(例如 η=0.8 或 1.0,觸發(fā)比例低于 2.5%),系統(tǒng)幾乎不介入,模型在遇到困惑時就缺乏必要的引導(dǎo)信號,從而影響整體訓(xùn)練效果。
恰好在維持認知靈活性與確保視覺準(zhǔn)確性之間找到了最優(yōu)解。
結(jié)語
Laser 的提出,為大語言模型的視覺推理指明了一條兼顧 “高效” 與 “深思” 的新道路。研究團隊期待這項工作能夠鼓勵多模態(tài)大模型的研究范式,從傳統(tǒng)的顯式文本預(yù)測,走向更符合直覺的連續(xù)隱式視覺推理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.