網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

物理場(chǎng)中閉環(huán)逆源定位與表征

2026-05-05 10:11:11　來源: CreateAMind

上海舉報(bào)

分享至

物理場(chǎng)中閉環(huán)逆源定位與表征

Distill-Belief: Closed-Loop Inverse Source Localization andCharacterization in Physical Fields

https://arxiv.org/pdf/2604.26095

摘要

閉環(huán)逆源定位與表征（Inverse Source Localization and Characterization, ISLC）要求移動(dòng)智能體在嚴(yán)格的時(shí)間約束下選擇測(cè)量點(diǎn)，以定位源并推斷潛在場(chǎng)參數(shù)。核心挑戰(zhàn)在于信念空間目標(biāo)：有效的不確定性估計(jì)需要昂貴的貝葉斯推斷，而使用快速學(xué)習(xí)的信念模型則會(huì)導(dǎo)致"獎(jiǎng)勵(lì)黑客"（reward hacking）現(xiàn)象，即策略利用近似誤差而非真正減少不確定性。我們提出 Distill-Belief，一種教師–學(xué)生框架，將正確性與效率解耦。一個(gè)貝葉斯正確的粒子濾波器（particle-filter）教師維護(hù)后驗(yàn)分布，并提供密集的信息增益信號(hào)；而一個(gè)緊湊的學(xué)生模型則將后驗(yàn)蒸餾為用于控制的信念統(tǒng)計(jì)量，以及用于停止判定的不確定性證書。在部署階段，僅使用學(xué)生模型，從而實(shí)現(xiàn)每步恒定的計(jì)算成本。在七種場(chǎng)模態(tài)和兩項(xiàng)壓力測(cè)試上的實(shí)驗(yàn)表明，與基線方法相比，Distill-Belief 能持續(xù)降低感知成本，并提升成功率、后驗(yàn)收縮程度和估計(jì)精度，同時(shí)有效緩解獎(jiǎng)勵(lì)黑客問題。

1 引言

自主科學(xué)感知任務(wù)正日益在野外環(huán)境中運(yùn)行：在疑似氣體泄漏 [15, 17]、污染物擴(kuò)散 [44, 77] 或輻射事件 [42, 69] 發(fā)生后，無人機(jī)或地面機(jī)器人被派遣執(zhí)行任務(wù)，并必須在嚴(yán)格的時(shí)間和能量預(yù)算下決定下一步的測(cè)量位置。每次測(cè)量都帶有噪聲且代價(jià)高昂，且通常不存在密集的任務(wù)獎(jiǎng)勵(lì)——關(guān)鍵在于系統(tǒng)能否以校準(zhǔn)的不確定性 [14, 25, 52] 快速定位并表征源，以便及時(shí)支持下游干預(yù)措施 [18, 19, 38]。

我們通過閉環(huán)逆源定位與表征（closed-loop ISLC，亦稱物理場(chǎng)中的源項(xiàng)估計(jì)問題 [13, 37, 50]）來研究這一設(shè)定 [33]。智能體順序采樣由傳輸模型支配的場(chǎng)，該模型包含未知參數(shù)向量 Θ [20, 46]（例如源位置/強(qiáng)度及環(huán)境因素），并根據(jù)噪聲觀測(cè)更新貝葉斯后驗(yàn) p(Θ | o?:?, p?:?)。科學(xué)目標(biāo)不僅僅是抵達(dá)高信號(hào)區(qū)域，而是主動(dòng)選擇測(cè)量點(diǎn) [58, 71, 71] 以收縮后驗(yàn)分布并產(chǎn)生校準(zhǔn)的不確定性，從而當(dāng)不確定性降至應(yīng)用指定的容差以下時(shí)終止任務(wù) [20, 67, 70]。

閉環(huán) ISLC 揭示了科學(xué)正確性與實(shí)際部署之間的根本張力。首先，目標(biāo)存在于信念空間：我們追求后驗(yàn)收縮與不確定性校準(zhǔn)，而非觀測(cè)空間中的啟發(fā)式代理（否則智能體可能追逐瞬態(tài)峰值，而無法可靠地減少認(rèn)知不確定性）。其次，科學(xué)場(chǎng)任務(wù)很少提供可靠的密集任務(wù)獎(jiǎng)勵(lì) [45, 54, 64]：成功信號(hào)往往是稀疏的、延遲的，甚至未定義的，且任務(wù)應(yīng)在不確定性充分降低時(shí)終止。與此同時(shí)，實(shí)際部署要求實(shí)時(shí)決策：每步計(jì)算不能隨昂貴的貝葉斯推斷而擴(kuò)展。第三，若將學(xué)習(xí)到的信念代理同時(shí)用作策略輸入和內(nèi)在獎(jiǎng)勵(lì)或停止判定的依據(jù)，智能體可能利用近似偽影——人為放大獎(jiǎng)勵(lì)或在未真正收縮真實(shí)后驗(yàn)的情況下觸發(fā)提前停止。這些考量對(duì)任何可部署的 ISLC 算法提出了一組耦合的要求。

形式上，閉環(huán) ISLC 必須滿足四個(gè)耦合要求：
(R1) 在信念空間中優(yōu)化，以直接減少認(rèn)知不確定性；
(R2) 在缺乏可靠密集任務(wù)獎(jiǎng)勵(lì)的條件下學(xué)習(xí)（即應(yīng)對(duì)成功信號(hào)稀疏/延遲或未定義的情況）；
(R3) 保持可部署性，即應(yīng)對(duì)每步計(jì)算不能隨昂貴貝葉斯推斷擴(kuò)展的問題；
(R4) 對(duì)獎(jiǎng)勵(lì)黑客具有魯棒性：策略不得通過操縱學(xué)習(xí)信念代理中的近似誤差（例如低估后驗(yàn)散布）來獲取高內(nèi)在獎(jiǎng)勵(lì)，或在未真正收縮后驗(yàn)的情況下滿足停止規(guī)則。

表 1 總結(jié)了代表性設(shè)計(jì)族對(duì)上述要求的覆蓋情況；沒有任何方法能同時(shí)滿足 (R1)–(R4)。為同時(shí)滿足 (R1)–(R4)，我們認(rèn)為必須將貝葉斯正確性與部署時(shí)的計(jì)算解耦。學(xué)習(xí)信號(hào)應(yīng)源自貝葉斯一致的信念更新，然而部署時(shí)的控制器無法承擔(dān)在線運(yùn)行此類更新的開銷。這留下了一個(gè)狹窄的實(shí)用設(shè)計(jì)空間：一個(gè)貝葉斯正確的教師在信念空間中計(jì)算信息論目標(biāo)，而一個(gè)快速學(xué)習(xí)的學(xué)生將關(guān)于 Θ 的教師后驗(yàn)壓縮為信念統(tǒng)計(jì)量（例如均值和對(duì)角協(xié)方差），這些統(tǒng)計(jì)量可相對(duì)于粒子預(yù)算以 O(1) 時(shí)間每步更新。值得注意的是，僅演員–評(píng)論家（actor-critic）更新策略參數(shù)；粒子濾波器（PF）教師并非規(guī)劃器，僅提供用于獎(jiǎng)勵(lì)計(jì)算和蒸餾目標(biāo)的貝葉斯信念更新。

一個(gè)關(guān)鍵問題是：為何我們要蒸餾信念，而非直接以端到端方式學(xué)習(xí)？若移除教師并使用與策略條件相同的所學(xué)信念來定義內(nèi)在獎(jiǎng)勵(lì)，策略可能利用建模誤差人為增加獎(jiǎng)勵(lì)或減少散布證書，而無需真正降低后驗(yàn)不確定性。反之，若保留貝葉斯一致的信念更新以防止此類偽影，則推斷仍保留在部署循環(huán)中，其成本隨粒子預(yù)算線性擴(kuò)展，違反實(shí)時(shí)約束。信念蒸餾解決了這一張力：它將教師后驗(yàn)遷移至參數(shù)化學(xué)生模型，為控制和停止產(chǎn)生恒定時(shí)間、不確定性校準(zhǔn)的信念統(tǒng)計(jì)量，同時(shí)在訓(xùn)練期間保持獎(jiǎng)勵(lì)與貝葉斯對(duì)齊且僅由教師計(jì)算。若無蒸餾，則必須在可部署性（測(cè)試時(shí)使用 PF）與統(tǒng)計(jì)對(duì)齊及魯棒性（所學(xué)信念同時(shí)定義獎(jiǎng)勵(lì)與控制）之間權(quán)衡，無法同時(shí)滿足 (R1)–(R4)。

為彌合這些差距，我們提出了一種用于閉環(huán) ISLC 的教師–學(xué)生信念優(yōu)化框架。一個(gè)粒子濾波器（PF）教師維護(hù)參數(shù)向量 Θ 上的貝葉斯一致后驗(yàn)。該教師提供基于連續(xù)信念間離散 KL 散度的密集內(nèi)在獎(jiǎng)勵(lì)，作為單步信息增益的高保真代理。一個(gè)快速學(xué)生將教師后驗(yàn)蒸餾為緊湊的對(duì)角高斯信念。蒸餾后的信念為信念條件的演員–評(píng)論家提供恒定時(shí)間特征，并提供基于散布的不確定性證書以實(shí)現(xiàn)原則性停止。在測(cè)試時(shí)，我們完全丟棄 PF，僅依賴學(xué)生的信念統(tǒng)計(jì)量，使推斷與終止獨(dú)立于粒子預(yù)算。這種分離使內(nèi)在獎(jiǎng)勵(lì)保持貝葉斯對(duì)齊，同時(shí)使部署擺脫 PF 推斷的開銷。

我們的主要貢獻(xiàn)包括：
(1) 我們將 ISLC 形式化為信念空間控制問題，并引入一種耦合的推斷–執(zhí)行架構(gòu)，通過 PF 教學(xué)與學(xué)生信念近似，將貝葉斯正確目標(biāo)與部署時(shí)計(jì)算解耦。
(2) 我們提出一種基于連續(xù)教師后驗(yàn)間單步 KL 散度的密集信息增益內(nèi)在獎(jiǎng)勵(lì)，直接將強(qiáng)化學(xué)習(xí)優(yōu)化與后驗(yàn)收縮對(duì)齊，并通過構(gòu)造防止獎(jiǎng)勵(lì)黑客：內(nèi)在獎(jiǎng)勵(lì)僅由 PF 教師后驗(yàn)計(jì)算，而所學(xué)學(xué)生信念僅用于條件化策略（輸出下一步感知?jiǎng)幼鳎┘坝?jì)算部署時(shí)的停止證書。
(3) 我們通過學(xué)生信念和基于散布的停止證書實(shí)現(xiàn)可部署且可靠的閉環(huán)推斷，該證書顯式控制精度–預(yù)算權(quán)衡，且在測(cè)試/部署時(shí)完全移除 PF 教師。

2 相關(guān)工作 2.1 面向 ISLC 的信息論規(guī)劃

閉環(huán)逆源定位與表征（ISLC，亦稱源項(xiàng)估計(jì)）是場(chǎng)感知任務(wù)中的一種常見原語：移動(dòng)智能體必須自適應(yīng)地決定下一步的測(cè)量位置，以定位隱藏發(fā)射源并以校準(zhǔn)的不確定性估計(jì)物理參數(shù)。代表性應(yīng)用場(chǎng)景包括：利用移動(dòng)機(jī)器人/無人機(jī)對(duì)大氣釋放事件進(jìn)行源項(xiàng)估計(jì) [7, 24]、為安全監(jiān)測(cè)進(jìn)行放射性源定位 [27, 32]，以及更廣泛的傳感設(shè)置中的污染物/源重構(gòu)問題 [5, 34]。

在方法論上，這些問題與序列貝葉斯實(shí)驗(yàn)設(shè)計(jì)[64, 65] 密切相關(guān)，其中動(dòng)作的選擇旨在最大程度地減少關(guān)于未知參數(shù)值 Θ 的不確定性。實(shí)現(xiàn)閉環(huán) ISLC [65] 的一條路徑是將貝葉斯序列推斷[3, 35, 76] 與信息論動(dòng)作選擇相結(jié)合：智能體 [16, 75] 維護(hù)關(guān)于未知源/傳輸參數(shù) Θ 的后驗(yàn)分布，并選擇下一步感知?jiǎng)幼饕宰畲蟪潭鹊厥湛s該信念。

代表性的基于信息的搜索框架通過序列蒙特卡洛 [3, 76] / 粒子濾波 [1, 36] 來近似 p(Θ | o?:?, p?:?)，并使用信息效用函數(shù)（如期望信息增益 [10]、互信息 [66] 或信念間的 KL 散度 [57]）評(píng)估候選動(dòng)作。

與這些顯式信息增益規(guī)劃器并行，許多非學(xué)習(xí)/靜態(tài)策略也采用類似的兩模塊結(jié)構(gòu)——(i) 一個(gè)估計(jì)模塊（貝葉斯/粒子濾波更新）和 (ii) 一個(gè)優(yōu)化不確定性相關(guān)代理目標(biāo)的貪婪控制器。典型例子包括 Infotaxis [29, 47, 71] 和 Entrotaxis [31, 59, 78]，它們通過減少信念不確定性（例如方差/熵）來驅(qū)動(dòng)探索；以及基于雙控制的方法（DCEE）[11, 41]，通過結(jié)合估計(jì)進(jìn)展項(xiàng)與不確定性減少項(xiàng)的復(fù)合目標(biāo)，顯式權(quán)衡利用與探索。

然而，在線控制循環(huán)通常需要重復(fù)的信念更新以及（通常）對(duì)候選動(dòng)作的前瞻評(píng)估，因此每步計(jì)算成本隨粒子預(yù)算和規(guī)劃視界增長(zhǎng)，這成為實(shí)時(shí)部署與大規(guī)模評(píng)估的關(guān)鍵障礙（違反第 1 節(jié)中的可部署性要求 (R3)）。

2.2 用于主動(dòng)感知與定位的強(qiáng)化學(xué)習(xí)

一個(gè)互補(bǔ)的方向是利用強(qiáng)化學(xué)習(xí)（RL）[43, 49, 62] 來攤銷決策過程，學(xué)習(xí)一個(gè)將觀測(cè)（以及可能的信念特征）映射到感知?jiǎng)幼鞯牟呗浴Ｔ?ISLC 及相關(guān)的主動(dòng)感知任務(wù) [60] 中，演員–評(píng)論家（actor-critic）[43, 48] 方法被廣泛采用，其中狀態(tài)表示將原始觀測(cè)與來自粒子濾波的緊湊信念摘要（例如后驗(yàn)矩或參數(shù)化壓縮形式，如高斯混合模型 [39, 54]）進(jìn)行增強(qiáng)。這種方式以單次策略前向傳播替代顯式的在線規(guī)劃，從而提升部署時(shí)的效率。

為進(jìn)一步提升可部署性，許多工作 [26, 73, 74] 將基于粒子的后驗(yàn)壓縮為低維信念表示（矩、混合擬合或?qū)W習(xí)的集合編碼器），更廣泛地說，使用攤銷推斷（amortized inference）以（近似）恒定時(shí)間預(yù)測(cè)后驗(yàn)統(tǒng)計(jì)量，從而避免控制過程中的迭代貝葉斯更新 [6]。

盡管如此，基于強(qiáng)化學(xué)習(xí)的方法通常依賴于觀測(cè)空間的獎(jiǎng)勵(lì)塑形 [51, 55]（例如濃度改善）或稀疏的終端成功信號(hào)，這可能與后驗(yàn)收縮目標(biāo)不一致，并鼓勵(lì)捷徑行為。此外，在許多科學(xué)場(chǎng)任務(wù)中，成功 [64] 并未被顯式標(biāo)注，而應(yīng)由充分低的不確定性隱式判定；自終止與目標(biāo)檢測(cè)機(jī)制通過將信念散布作為停止觸發(fā)條件來應(yīng)對(duì)這一問題 [64]。

總體而言，基于強(qiáng)化學(xué)習(xí)的方法往往能滿足可部署性要求 (R3)，但若學(xué)習(xí)信號(hào)設(shè)計(jì)不當(dāng)，可能難以應(yīng)對(duì)信念空間目標(biāo) (R1) 與稀疏/隱式監(jiān)督 (R2)。在控制循環(huán)內(nèi)部使用近似信念還可能破壞科學(xué)語義。若同一個(gè)所學(xué)信念代理既用于條件化策略，又用于定義內(nèi)在獎(jiǎng)勵(lì)或停止判定 [9]，智能體可能利用代理模型的偽影，在未真正收縮貝葉斯后驗(yàn)的情況下獲取獎(jiǎng)勵(lì)或提前停止（違反要求 (R4)）。

這促使我們采用教師–學(xué)生[4, 21, 61, 72] 架構(gòu)，將貝葉斯目標(biāo)與部署時(shí)計(jì)算解耦：一個(gè)貝葉斯正確的推斷模塊可作為監(jiān)督信號(hào)源，而一個(gè)快速攤銷模型則提供用于實(shí)時(shí)控制的信念統(tǒng)計(jì)量。

3 預(yù)備知識(shí) 3.1 場(chǎng)建模的統(tǒng)一框架

包括污染物擴(kuò)散、氣體擴(kuò)散和電場(chǎng)分布在內(nèi)的廣泛自然現(xiàn)象，都可以在一個(gè)統(tǒng)一的物理框架內(nèi)進(jìn)行描述。盡管這些過程表面上存在差異，但它們都受三個(gè)基本項(xiàng)支配：擴(kuò)散、對(duì)流和外部源。這些項(xiàng)通常由一般對(duì)流-擴(kuò)散方程（Convection-Diffusion Equation, CDE）[23] 來刻畫，該方程提供了一個(gè)通用的數(shù)學(xué)抽象：

3.2 高斯羽流模型

作為對(duì)流-擴(kuò)散框架的經(jīng)典解析實(shí)例，高斯羽流模型（Gaussian Plume Model, GPM）如圖1所示，提供了一個(gè)穩(wěn)態(tài)解，在建模保真度和計(jì)算效率之間取得平衡。在適當(dāng)假設(shè)下，所得場(chǎng)分布由下式給出

3.3 部分可觀測(cè)馬爾可夫決策過程（Partially Observable MDP）

4 方法

我們將閉環(huán) ISLC 形式化為一個(gè)信念空間控制問題，其目標(biāo)是后驗(yàn)收縮。第 4.1 小節(jié)定義了策略所使用的信念狀態(tài)。第 4.2–4.3 小節(jié)描述了信念的維護(hù)與攤銷計(jì)算過程。第 4.4 小節(jié)指明了用于訓(xùn)練的基于 KL 散度的內(nèi)在獎(jiǎng)勵(lì)。第 4.5–4.6 小節(jié)介紹了信念條件的演員-評(píng)論家（Actor-Critic）以及停止準(zhǔn)則。

4.2 基于粒子濾波的教師信念

4.3 基于 PF 蒸餾的學(xué)生后驗(yàn)

4.4 基于 KL 的內(nèi)在獎(jiǎng)勵(lì)

4.5 信念特征與策略學(xué)習(xí)

4.6 停止規(guī)則與復(fù)雜度

5 實(shí)驗(yàn)

研究問題 (RQ)： 我們的實(shí)驗(yàn)旨在回答以下研究問題：

(1) (RQ1，見 5.1 節(jié)) 在實(shí)踐中，Distill-Belief 是否能在跨越不同物理場(chǎng)模態(tài)的標(biāo)準(zhǔn)單源 ISLC 任務(wù)中，持續(xù)地優(yōu)于強(qiáng)大的基于 RL 和基于規(guī)劃的基線方法，同時(shí)在提升任務(wù)性能以及推斷/不確定性質(zhì)量方面表現(xiàn)優(yōu)異？

(2) (RQ2，見 5.2 節(jié)) 隨著同時(shí)存在的源數(shù)量增加（即后驗(yàn)分布日益呈現(xiàn)多模態(tài)特性），該方法在現(xiàn)實(shí)場(chǎng)景中的擴(kuò)展性如何？

(3) (RQ3，見 5.3 節(jié)) 在可達(dá)性限制了信息性感知的障礙物受限（非凸）環(huán)境中，Distill-Belief 能否保持高成功率和效率？

(4) (RQ4，見 5.4 節(jié)) 關(guān)鍵設(shè)計(jì)選擇的貢獻(xiàn)是什么，以及這些選擇如何影響在現(xiàn)實(shí)設(shè)置中對(duì)捷徑/獎(jiǎng)勵(lì)黑客（reward-hacking）行為的魯棒性？

(5) (RQ5，見 5.5 節(jié)) 與基于 PF（粒子濾波）的推斷相比，蒸餾后的學(xué)生在粒子預(yù)算方面的部署時(shí)推斷成本是多少？

(6) (RQ6，見 5.6 節(jié)) 結(jié)果對(duì) PF 超參數(shù)的敏感度如何，以及在實(shí)踐中隨著粒子預(yù)算的變化，實(shí)際的性能-成本前沿（performance-cost frontier）位于何處？

5.1 單源跨域結(jié)果

我們?cè)谝粋€(gè)隨機(jī)生成場(chǎng)景的留出集（held-out set）上評(píng)估分布內(nèi)（ID）性能。除非另有說明，所有方法共享相同的環(huán)境配置、訓(xùn)練預(yù)算和網(wǎng)絡(luò)架構(gòu)（如適用），并且我們報(bào)告了基于多個(gè)隨機(jī)種子的均值和標(biāo)準(zhǔn)差。我們使用第 5 節(jié)中定義的指標(biāo)來聯(lián)合評(píng)估任務(wù)性能和信念/不確定性質(zhì)量，并遵循每個(gè)基線方法推薦的超參數(shù)，除非另有明確說明。額外的實(shí)現(xiàn)細(xì)節(jié)見附錄 D.4。

表2:不同情景下的基線比較

表 2 總結(jié)了七種場(chǎng)類型下的核心單源結(jié)果。總體而言，DISTILL-BELIEF 實(shí)現(xiàn)了最強(qiáng)的任務(wù)成功率和效率：它始終能達(dá)到最高（或接近最高）的成功率（SR），同時(shí)需要明顯更少的步數(shù)（TE）即可達(dá)到停止準(zhǔn)則。在諸如電場(chǎng)（Elec.）和能量場(chǎng)（En.）等具有挑戰(zhàn)性的模態(tài)上，增益最為顯著；在這些模態(tài)中，基于規(guī)劃的基線方法性能大幅下降，而我們的方法則以更短的軌跡保持了顯著更高的成功率。

一個(gè)關(guān)鍵的觀察結(jié)果是，高 SR 并非僅靠“提前停止”獲得的。我們的方法在所有場(chǎng)類型下也產(chǎn)生了顯著更低的定位誤差（LPS），這表明該策略確實(shí)是在驅(qū)動(dòng)信念收縮，而非過早終止。相比之下，規(guī)劃基線（Infotaxis / Entrotaxis / DCEE）傾向于遭受短視的信息搜尋或在噪聲觀測(cè)下過于保守的探索，導(dǎo)致軌跡過長(zhǎng)且 SR 較低。在基于 RL 的競(jìng)爭(zhēng)者中，我們觀察到探索效率與推斷質(zhì)量之間存在明顯的權(quán)衡。雖然一些 RL 基線可以在較簡(jiǎn)單的模態(tài)中實(shí)現(xiàn)有競(jìng)爭(zhēng)力的表現(xiàn)指標(biāo)（REV），但它們通常需要更長(zhǎng)的軌跡和/或表現(xiàn)出較差的 LPS，這表明它們不能像我們的方法那樣可靠地減少后驗(yàn)散布。通過將貝葉斯正確的教師獎(jiǎng)勵(lì)與攤銷的信念特征顯式耦合，DISTILL-BELIEF 同時(shí)實(shí)現(xiàn)了高成功率和快速終止，證明了信念空間目標(biāo)比稀疏或啟發(fā)式獎(jiǎng)勵(lì)提供了更強(qiáng)的訓(xùn)練信號(hào)。

5.2 多源定位

表 3 報(bào)告了在具有 2/3/4 個(gè)源的溫度場(chǎng)中的多源定位性能。雖然單源定位是一個(gè)標(biāo)準(zhǔn)基準(zhǔn)，但許多現(xiàn)實(shí)場(chǎng)景涉及多個(gè)發(fā)射源（例如，多個(gè)泄漏點(diǎn)或熱點(diǎn)），導(dǎo)致觀測(cè)疊加和多模態(tài)后驗(yàn)分布。因此，該設(shè)置具有實(shí)質(zhì)性的挑戰(zhàn)：智能體必須既在信念空間中區(qū)分多個(gè)峰值（消除歧義），又要分配感知軌跡以減少各源的不確定性。通過增加源的數(shù)量，我們顯式地測(cè)試了那些在近似單模態(tài)后驗(yàn)下表現(xiàn)良好的方法，能否在不退化為局部感知模式的前提下，擴(kuò)展到多模態(tài)信念。我們使用 ASLE、WCSE 和 BCR 來總結(jié)性能，以捕捉跨源的平均準(zhǔn)確性和最壞情況下的可靠性。

如表 3 所示，隨著源數(shù)量的增加，性能有所下降，這是由于觀測(cè)疊加和多模態(tài)性導(dǎo)致的，符合預(yù)期。盡管如此，在 2/3/4 個(gè)源的情況下，Distill-Belief 在成功率（SR）和軌跡效率（TE）方面仍然是表現(xiàn)最佳的方法。這表明學(xué)習(xí)到的策略并沒有退化為單一的局部感知模式；相反，它繼續(xù)收集具有信息量的測(cè)量數(shù)據(jù)，以減少全局歧義。規(guī)劃基線在 SR 上表現(xiàn)出更急劇的下降，在 TE 上表現(xiàn)出快速增加，這與它們?cè)谶\(yùn)動(dòng)約束下處理多模態(tài)后驗(yàn)和長(zhǎng)視界消歧的困難相一致。

5.3 障礙物受限環(huán)境

表 4 評(píng)估了在不同障礙物密度下的障礙物受限環(huán)境中的性能。障礙物導(dǎo)致了非凸的可行區(qū)域，并且往往阻礙智能體采取直接路徑前往信息量最大的區(qū)域，這可能會(huì)暴露貪婪信息搜尋基線以及未能適當(dāng)考慮可達(dá)性的策略的脆弱性。包含這一系列測(cè)試是為了評(píng)估實(shí)際可部署性：智能體必須在稀疏、中等和密集的障礙物布局下，在保持定位質(zhì)量的同時(shí)生成高效且可行的軌跡。我們報(bào)告 SR、TE 和 LPS，以聯(lián)合反映受限導(dǎo)航中的定位性能、感知效率和路徑級(jí)行為。

表 4 顯示，隨著障礙物密度從稀疏增加到密集，所有方法的 SR 均降低且 TE 增加，這是因?yàn)榉峭沟目蛇_(dá)性限制了對(duì)信息量最大區(qū)域的訪問。在所有密度下，Distill-Belief 仍然是最強(qiáng)的方法，實(shí)現(xiàn)了最高的成功率（在稀疏/中等/密集環(huán)境下 SR 分別為 0.90/0.86/0.80），同時(shí)以最少的步數(shù)終止（TE 分別為 21/25/31），這表明其進(jìn)行了由信念驅(qū)動(dòng)但感知約束的探索。在 RL 基線中，GMM-IG 是最接近的競(jìng)爭(zhēng)者，但在成功率和效率方面仍落后（SR: 0.85/0.81/0.74, TE: 24/28/35），而 AGDC 在障礙物環(huán)境下的效率尤其低下（TE: 46/52/61），這表明其難以協(xié)調(diào)信息性感知與可行導(dǎo)航。基于規(guī)劃的方法在密集布局中性能下降更為劇烈（Infotaxis TE 為 71；DCEE SR 為 0.38 且 TE 為 80），這與它們過度致力于局部信息量大但全局效率低的路徑，以及未能在視界內(nèi)滿足證書要求（即未能達(dá)到停止標(biāo)準(zhǔn)）的情況相一致。

5.4 消融實(shí)驗(yàn)

我們進(jìn)行了兩項(xiàng)互補(bǔ)的消融實(shí)驗(yàn)，以分離信念優(yōu)化流程和獎(jiǎng)勵(lì)塑形的貢獻(xiàn)。表 7 消融了教師-學(xué)生信念流程中的關(guān)鍵組件。表 8 通過比較基于密集 KL 散度的信息增益與稀疏的硬成功反饋，進(jìn)一步獨(dú)立評(píng)估了獎(jiǎng)勵(lì)設(shè)計(jì)。除非另有說明，我們報(bào)告 SR、TE、SLE、FPE 和 UQ(NLL)；針對(duì)獎(jiǎng)勵(lì)設(shè)計(jì)，我們額外報(bào)告 Steps@70% SR 以量化樣本效率。

信念優(yōu)化流程。 表 7 和圖 3c 表明，性能增益并非源于單一的啟發(fā)式方法。移除基于 KL 的 IG 獎(jiǎng)勵(lì)會(huì)大幅降低 SR 并增加 TE，這表明密集的信念空間塑形對(duì)于樣本高效的探索至關(guān)重要。從學(xué)生信念計(jì)算 KL 目標(biāo)會(huì)同時(shí)降低性能和 UQ，這與當(dāng)同一近似既用于獎(jiǎng)勵(lì)又用于策略輸入時(shí)出現(xiàn)的走捷徑（shortcutting）現(xiàn)象一致。蒸餾對(duì)于高效部署至關(guān)重要：僅使用 PF 進(jìn)行測(cè)試雖然仍具有競(jìng)爭(zhēng)力，但放棄了攤銷推斷的優(yōu)勢(shì)；而在沒有 PF 監(jiān)督的情況下僅訓(xùn)練學(xué)生模型會(huì)顯著損害 SR/SLE/FPE/UQ，這凸顯了貝葉斯正確的教師指導(dǎo)的必要性。最后，移除 Spread 特征或基于 Spread 的停止主要損害了效率和校準(zhǔn)度，而禁用 MH 更新（rejuvenation）則降低了穩(wěn)定性和后驗(yàn)質(zhì)量，這表明 PF 的多樣性改善了監(jiān)督效果。

獎(jiǎng)勵(lì)設(shè)計(jì)。 表 8 和圖 3a 證實(shí)，稀疏的硬成功反饋的可學(xué)習(xí)性顯著較差，導(dǎo)致 SR 較低、UQ 較差以及樣本效率明顯低下。相比之下，基于密集 KL 散度的信息增益獎(jiǎng)勵(lì)在整個(gè) episode 期間提供了經(jīng)過塑形的、與信念對(duì)齊的反饋，加速了學(xué)習(xí)并改善了軌跡效率和后驗(yàn)質(zhì)量。混合變體和課程學(xué)習(xí)變體表明，一旦出現(xiàn)了可靠的探索行為，就可以添加任務(wù)成功信號(hào)，而不會(huì)犧牲 KL 塑形帶來的益處。

5.5 部署成本與攤銷推斷

表 9 專注于測(cè)試時(shí)成本。基于 PF（粒子濾波）的信念更新隨粒子數(shù)量線性擴(kuò)展，這可能成為實(shí)時(shí)決策或在大量場(chǎng)景中部署的瓶頸。我們的教師–學(xué)生設(shè)計(jì)正是為了攤銷貝葉斯推斷：學(xué)生模型以恒定時(shí)間預(yù)測(cè)信念特征，同時(shí)保留了貝葉斯正確訓(xùn)練信號(hào)的優(yōu)勢(shì)。該表通過將僅學(xué)生推斷與僅 PF 測(cè)試進(jìn)行對(duì)比，并展示那些在測(cè)試時(shí)依賴 PF 的方法如何產(chǎn)生 O ( N ) 的每步開銷，從而顯式地將性能與可部署性解耦。表 9 和圖 3b 強(qiáng)調(diào)了我們教師–學(xué)生設(shè)計(jì)的實(shí)際動(dòng)機(jī)。PF 更新每步按 O ( N ) 擴(kuò)展，并迅速成為部署瓶頸，而蒸餾后的學(xué)生模型以 O ( 1 ) 時(shí)間預(yù)測(cè)信念特征。重要的是，恒定時(shí)間的部署并非源于削弱訓(xùn)練目標(biāo)：貝葉斯正確性在訓(xùn)練期間通過 PF 教師強(qiáng)制執(zhí)行，而學(xué)生模型通過蒸餾繼承了這種行為。

5.6 對(duì)預(yù)算與閾值的敏感性

6 局限性與倫理考量

實(shí)驗(yàn)使用基于物理原理的模擬器進(jìn)行隨機(jī)感知；實(shí)際部署可能會(huì)增加復(fù)雜性。仍存在兩個(gè)局限性。1) 訓(xùn)練依賴于貝葉斯一致的粒子濾波教師以獲取信息增益獎(jiǎng)勵(lì)和目標(biāo)，隨著參數(shù)空間的增長(zhǎng)，這可能代價(jià)高昂。2) 緊湊的測(cè)試時(shí)信念在具有多模態(tài)后驗(yàn)的多源情況下可能效果較差。本研究未使用人類受試者或可識(shí)別個(gè)人身份的數(shù)據(jù)；實(shí)際部署應(yīng)遵循機(jī)構(gòu)政策和同意要求。最后，我們強(qiáng)調(diào)我們已經(jīng)使用非 AI 方法在現(xiàn)實(shí)/物理實(shí)驗(yàn)中 [28, 30] 驗(yàn)證了整體感知與定位流程，本文通過基于蒸餾的策略擴(kuò)展了該已驗(yàn)證的設(shè)置。

7 結(jié)論

我們提出了 Distill-Belief，一種用于閉環(huán) ISLC 的教師–學(xué)生框架。在該框架中，粒子濾波教師在訓(xùn)練期間提供貝葉斯一致的基于 KL 散度的信息增益獎(jiǎng)勵(lì)，而緊湊的學(xué)生信念則在測(cè)試時(shí)實(shí)現(xiàn)恒定計(jì)算成本的控制以及基于不確定性的停止機(jī)制。在七種基于物理原理的模態(tài)和壓力測(cè)試中，與強(qiáng)大的基線方法相比，該方法提升了成功率、樣本效率和不確定性質(zhì)量，同時(shí)有效緩解了獎(jiǎng)勵(lì)黑客問題。

原文鏈接：https://arxiv.org/pdf/2604.26095

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.