告別冗長思維鏈！Laser用「概率疊加」重塑多模態(tài)大模型隱式推理

2026-05-08 14:18:56　來源: 機器之心Pro

天津舉報

分享至

本文的共同第一作者王禹博，張鈞天分別為復(fù)旦大學(xué)和中國人民大學(xué)高瓴人工智能學(xué)院的碩士研究生，主要研究方向為多模態(tài)大模型和 Reasoning 等，預(yù)計 2027 年 6 月畢業(yè)，如有多模態(tài)大模型 / Reasoning 相關(guān)的優(yōu)質(zhì)發(fā)展機會，歡迎大家聯(lián)系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通訊作者是劉雨涵，目前在 MBZUAI 擔(dān)任研究員，研究方向為多模態(tài)大模型，Agent 和 Misinformation 等。

近年來，隨著思維鏈（Chain-of-Thought）技術(shù)的普及，多模態(tài)大模型（VLMs）的多步推理能力得到了顯著提升。然而，這種依賴顯式文本的推理路徑正面臨著一個嚴(yán)重的 “信息帶寬瓶頸”：在離散的文本分詞過程中，連續(xù)且豐富的視覺細節(jié)往往會被大量丟失。

為了解決這一痛點，由 MBZUAI、復(fù)旦大學(xué)、中國人民大學(xué)高瓴人工智能學(xué)院以及哈佛大學(xué)聯(lián)合組成的研究團隊，提出了一種名為Laser的全新隱式視覺推理范式。該研究從認知心理學(xué)中汲取靈感，引入了 “Forest-before-Trees” 的認知機制，通過動態(tài)窗口對齊學(xué)習(xí)（DWAL），首次實現(xiàn)了在隱空間中維持視覺特征的 “概率疊加” 狀態(tài)。

研究實驗結(jié)果顯示，Laser 不僅在 6 個主流基準(zhǔn)測試中刷新了隱式推理的 SOTA 紀(jì)錄，更以極致的效率將推理 Token 消耗大幅降低了 97% 以上。這一工作為構(gòu)建更原生、更高效的多模態(tài)智能提供了全新的視角。目前，該論文已被 ACL 2026 Main Conference 正式接收。

論文標(biāo)題： Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
論文鏈接： https://arxiv.org/pdf/2601.06803
代碼倉庫： https://github.com/ybb6/laser
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/wybb/Laser-ScanPath

1. 傳統(tǒng)隱式推理的困境：過早的語義坍縮

如前文所述，純文本的思維鏈在多模態(tài)大模型中不僅面臨著視覺細節(jié)丟失的 “信息帶寬瓶頸”，還存在另一個隱患：語言先驗（Language Priors）的干擾。在生成冗長文本推理的過程中，模型往往會過度依賴固有的語言邏輯，從而產(chǎn)生幻覺或忽視了圖像本身傳遞的視覺信息。

為了繞開顯式文本帶來的這些局限，學(xué)界近期開始探索將推理過程轉(zhuǎn)移到高維空間的 “隱式推理（Latent Space Reasoning）”。但現(xiàn)有的隱式推理方法大多依然沿用傳統(tǒng)大語言模型的自回歸框架。它們在隱空間中強迫模型進行嚴(yán)格的逐點映射 —— 即在每一步推理中，都要求模型去精準(zhǔn)預(yù)測緊接著的下一個具體概念或視覺特征。

研究團隊指出，這種逐點映射與人類真實的視覺感知規(guī)律背道而馳。人類在觀察復(fù)雜圖像時，往往遵循 “Forest-before-Trees” 的層級性原則，即先建立對整體畫面的宏觀語義把控，再逐步聚焦于局部的特定細節(jié)。如果強迫模型在尚未完全掌握全局上下文之時，就 “過早地發(fā)生語義坍縮”，將其隱狀態(tài)死死鎖定在某個具體的局部概念上，就會引發(fā)嚴(yán)重的 “管中窺豹” 效應(yīng)，使模型難以捕捉更復(fù)雜的視覺邏輯關(guān)系。

然而，打破這種逐點約束也面臨著巨大的技術(shù)鴻溝：如果放任隱狀態(tài)保持模糊的未坍縮狀態(tài)，在缺乏外部強監(jiān)督信號的情況下，模型極易迷失方向，導(dǎo)致隱空間發(fā)散為毫無意義的高熵噪聲。如何在探索全局的概率疊加與精準(zhǔn)聚焦的答案收斂之間找到平衡，成為了阻礙隱式推理發(fā)展的一大難題，而這也正是 Laser 范式要攻克的核心目標(biāo)。

2. Laser 核心機制：動態(tài)窗口對齊與隱式疊加

基于上述洞察，研究團隊提出了Laser（Latent Superposition for Effective Visual Reasoning）。其核心創(chuàng)新在于放棄逐點預(yù)測，轉(zhuǎn)而采用動態(tài)窗口對齊學(xué)習(xí)（Dynamic Windowed Alignment Learning, DWAL）。

動態(tài)語義窗口： Laser 不再只預(yù)測緊接著的下一個詞，而是讓當(dāng)前的隱狀態(tài)與一個包含未來潛在語義的動態(tài)有效窗口進行對齊。
認知流的過渡：隨著推理過程的推進，語義窗口會自然縮小，從而強制模型完成從全局探索到局部精準(zhǔn)定位的漸進式過渡。這種機制使得隱狀態(tài)能夠維持一種 “概率疊加” 狀態(tài)，在編碼高層全局語義的同時，將具體細節(jié)保留在潛在狀態(tài)中。
自修正與熵正則化干預(yù)：為了在缺乏外部強監(jiān)督的情況下穩(wěn)定這種無約束的學(xué)習(xí)過程，團隊設(shè)計了自修正疊加機制（Self-Refined Superposition）來構(gòu)建穩(wěn)定的軟目標(biāo)。同時，研究引入了熵正則化干預(yù)（Entropy-Regularized Intervention），當(dāng)模型不確定性較高時動態(tài)注入硬性引導(dǎo)，而在模型掌握全局上下文時恢復(fù)軟疊加，形成一種隱式的課程學(xué)習(xí)。

3. 數(shù)據(jù)基石：ScanPath 認知軌跡

為了支撐 Laser 的隱式對齊訓(xùn)練，研究團隊摒棄了依賴顯式邊界框（Bounding Boxes）等視覺 COT 的強監(jiān)督手段，選擇通過隱式潛空間對齊來橋接感知與語言。為此研究團隊專門構(gòu)建了包含約 27 萬樣本的 ScanPath 數(shù)據(jù)集，為動態(tài)窗口對齊（DWAL）提供完美契合 “Forest-before-Trees” 規(guī)律的訓(xùn)練載體。團隊將 GPT-4o 設(shè)定為 “視覺認知引擎” ，基于全局優(yōu)先假設(shè)（Global Precedence Hypothesis）對合成數(shù)據(jù)施加了極其嚴(yán)格的生成約束：

嚴(yán)格的 “全局到局部” 掃描邏輯：要求序列必須從最寬泛的全局錨點起步，逐步將焦點縮小到相關(guān)主體，并最終落腳于解答查詢所需的關(guān)鍵視覺證據(jù)上。
演繹軌跡而非靜態(tài)描述：這一特定的結(jié)構(gòu)確保了數(shù)據(jù)呈現(xiàn)的是動態(tài)的視覺演繹軌跡，而不是對圖像表面元素的靜態(tài)描述。
原子化與去語法化：為了提煉出高密度的 “語義錨點”，生成內(nèi)容被要求必須是原子級別的特定視覺概念，并強制剔除所有的語法修飾詞（如 is, the, a 等停用詞）。

在這些嚴(yán)苛的要求下，ScanPath 成功將視覺推理過程解構(gòu)成了一系列離散的語義節(jié)點，并在人工評估中取得了 91.5% 的邏輯有效率。這份認知掃描路徑數(shù)據(jù)，為后續(xù)模型在隱空間中維持概率疊加提供了最核心的監(jiān)督目標(biāo)。

4. 具體方法

動態(tài)語義窗口（Dynamic Semantic Windows）

自修正的隱式疊加（Self-Refined Superposition）

在傳統(tǒng)的自回歸訓(xùn)練中，損失函數(shù)強制要求模型在這一步必須 100% 預(yù)測唯一的下一個詞，這正是導(dǎo)致隱狀態(tài)發(fā)生 “過早語義坍縮” 的罪魁禍?zhǔn)住?/p>

熵正則化干預(yù)（Entropy-Regularized Intervention）

總體優(yōu)化目標(biāo)（Optimization Objective）

整合以上機制，對于隱式推理鏈，DWAL 損失負責(zé)將隱式軌跡與動態(tài)語義窗口對齊：

5. 實驗結(jié)果：以極低算力刷新 SOTA，兼具可解釋性

研究團隊在 6 個極具挑戰(zhàn)性的視覺基準(zhǔn)測試上對 Laser 進行了全面評估。結(jié)果表明，Laser 兼顧顯式思維鏈的推理深度和隱式推理的高效推理速度。

卓越的推理性能

Laser 在隱式推理方法中確立了新的最優(yōu)性能（SOTA）。與隱式推理基線模型相比，Laser 的平均性能提升了 5.03%。特別是在測試視覺錯覺和幻覺的 HallusionBench 以及感知基準(zhǔn) BLINK 上，Laser 分別取得了 11.36% 和 6.21% 的漲幅。

高效的推理效率

尤為值得一提的是，Laser 在取得性能突破的同時，展現(xiàn)出了極高的運行效率。通過將推理過程從離散文本空間轉(zhuǎn)移到緊湊的隱空間，Laser 成功將推理 Token 的消耗減少了 97% 以上。在 BLINK 基準(zhǔn)測試中，其平均 Token 消耗量銳減至僅 6.0 個，遠遠低于顯式推理方法。

破局隱式推理的 “黑盒化”

與傳統(tǒng)隱式推理模型中難以解讀的連續(xù)向量不同，Laser 成功保留了高度的可解釋性。得益于其訓(xùn)練過程中維護語義疊加態(tài)的窗口對齊機制，Laser 的隱狀態(tài)可以直接通過語言模型的詞表頭進行投影解碼，從而讓研究人員能夠直觀地可視化出大模型的內(nèi)部 “認知軌跡”。

6. 消融實驗：探索 Laser 的內(nèi)在機制

為了驗證 Laser 各個核心組件的實際貢獻，研究團隊在論文中進行了詳盡的消融實驗。結(jié)果表明，Laser 的良好表現(xiàn)主要歸功于隱式對齊框架的設(shè)計，以及對干預(yù)機制的精準(zhǔn)把控。

6.1 探究 Laser 為何有效：概率疊加與動態(tài)窗口

團隊首先對動態(tài)窗口對齊學(xué)習(xí)（DWAL）的核心要素概率疊加和動態(tài)窗口進行了消融實驗。

概率疊加防止語義坍縮：當(dāng)移除 DWAL 目標(biāo)，使模型退化為標(biāo)準(zhǔn)的 “預(yù)測下一個詞” 模式時，模型在細粒度感知基準(zhǔn)（如 MMVP 和 BLINK）上的性能出現(xiàn)了顯著下降。這表明，在推理過程中維持概率疊加態(tài)，對于防止模型過早丟失視覺細節(jié)、避免語義坍縮至關(guān)重要。
動態(tài)窗口構(gòu)建認知層級：進一步的實驗發(fā)現(xiàn)，如果取消動態(tài)窗口的縮減機制（即使用固定窗口），模型在復(fù)雜邏輯推理任務(wù)（如 MMStar）上的表現(xiàn)會明顯受損。這印證了動態(tài)窗口是實現(xiàn) “Forest-before-Trees” 機制的關(guān)鍵：通過逐步縮小語義范圍，強制模型先捕捉全局上下文，再聚焦局部細節(jié)。

6.2 熵干預(yù)的控制：觸發(fā)干預(yù)的黃金比例

在隱空間中，模型什么時候該自由探索，什么時候該被強制糾偏？這就需要通過熵正則化干預(yù)機制中的閾值 η 來控制。實驗對不同的熵閾值進行了對比，發(fā)現(xiàn) η=0.6 是最佳的平衡點，此時強制干預(yù)的觸發(fā)比例約為 10%。

這個比例意味著，系統(tǒng)大約每 10 個 Token 會進行一次硬性糾偏。如果門檻設(shè)定過低（例如 η=0.5，觸發(fā)比例升至 18%，過于頻繁的干預(yù)會像傳統(tǒng)的強監(jiān)督一樣，限制模型在隱空間中的探索自由，導(dǎo)致邏輯推理（如 MMStar）性能下降。
反之，如果門檻設(shè)定過高（例如 η=0.8 或 1.0，觸發(fā)比例低于 2.5%），系統(tǒng)幾乎不介入，模型在遇到困惑時就缺乏必要的引導(dǎo)信號，從而影響整體訓(xùn)練效果。

恰好在維持認知靈活性與確保視覺準(zhǔn)確性之間找到了最優(yōu)解。

結(jié)語

Laser 的提出，為大語言模型的視覺推理指明了一條兼顧 “高效” 與 “深思” 的新道路。研究團隊期待這項工作能夠鼓勵多模態(tài)大模型的研究范式，從傳統(tǒng)的顯式文本預(yù)測，走向更符合直覺的連續(xù)隱式視覺推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.