<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      物理場(chǎng)中閉環(huán)逆源定位與表征

      0
      分享至

      物理場(chǎng)中閉環(huán)逆源定位與表征

      Distill-Belief: Closed-Loop Inverse Source Localization andCharacterization in Physical Fields

      https://arxiv.org/pdf/2604.26095



      摘要

      閉環(huán)逆源定位與表征(Inverse Source Localization and Characterization, ISLC)要求移動(dòng)智能體在嚴(yán)格的時(shí)間約束下選擇測(cè)量點(diǎn),以定位源并推斷潛在場(chǎng)參數(shù)。核心挑戰(zhàn)在于信念空間目標(biāo):有效的不確定性估計(jì)需要昂貴的貝葉斯推斷,而使用快速學(xué)習(xí)的信念模型則會(huì)導(dǎo)致"獎(jiǎng)勵(lì)黑客"(reward hacking)現(xiàn)象,即策略利用近似誤差而非真正減少不確定性。我們提出 Distill-Belief,一種教師–學(xué)生框架,將正確性與效率解耦。一個(gè)貝葉斯正確的粒子濾波器(particle-filter)教師維護(hù)后驗(yàn)分布,并提供密集的信息增益信號(hào);而一個(gè)緊湊的學(xué)生模型則將后驗(yàn)蒸餾為用于控制的信念統(tǒng)計(jì)量,以及用于停止判定的不確定性證書。在部署階段,僅使用學(xué)生模型,從而實(shí)現(xiàn)每步恒定的計(jì)算成本。在七種場(chǎng)模態(tài)和兩項(xiàng)壓力測(cè)試上的實(shí)驗(yàn)表明,與基線方法相比,Distill-Belief 能持續(xù)降低感知成本,并提升成功率、后驗(yàn)收縮程度和估計(jì)精度,同時(shí)有效緩解獎(jiǎng)勵(lì)黑客問題。

      1 引言

      自主科學(xué)感知任務(wù)正日益在野外環(huán)境中運(yùn)行:在疑似氣體泄漏 [15, 17]、污染物擴(kuò)散 [44, 77] 或輻射事件 [42, 69] 發(fā)生后,無人機(jī)或地面機(jī)器人被派遣執(zhí)行任務(wù),并必須在嚴(yán)格的時(shí)間和能量預(yù)算下決定下一步的測(cè)量位置。每次測(cè)量都帶有噪聲且代價(jià)高昂,且通常不存在密集的任務(wù)獎(jiǎng)勵(lì)——關(guān)鍵在于系統(tǒng)能否以校準(zhǔn)的不確定性 [14, 25, 52] 快速定位并表征源,以便及時(shí)支持下游干預(yù)措施 [18, 19, 38]。

      我們通過閉環(huán)逆源定位與表征(closed-loop ISLC,亦稱物理場(chǎng)中的源項(xiàng)估計(jì)問題 [13, 37, 50])來研究這一設(shè)定 [33]。智能體順序采樣由傳輸模型支配的場(chǎng),該模型包含未知參數(shù)向量 Θ [20, 46](例如源位置/強(qiáng)度及環(huán)境因素),并根據(jù)噪聲觀測(cè)更新貝葉斯后驗(yàn) p(Θ | o?:?, p?:?)。科學(xué)目標(biāo)不僅僅是抵達(dá)高信號(hào)區(qū)域,而是主動(dòng)選擇測(cè)量點(diǎn) [58, 71, 71] 以收縮后驗(yàn)分布并產(chǎn)生校準(zhǔn)的不確定性,從而當(dāng)不確定性降至應(yīng)用指定的容差以下時(shí)終止任務(wù) [20, 67, 70]。

      閉環(huán) ISLC 揭示了科學(xué)正確性與實(shí)際部署之間的根本張力。首先,目標(biāo)存在于信念空間:我們追求后驗(yàn)收縮與不確定性校準(zhǔn),而非觀測(cè)空間中的啟發(fā)式代理(否則智能體可能追逐瞬態(tài)峰值,而無法可靠地減少認(rèn)知不確定性)。其次,科學(xué)場(chǎng)任務(wù)很少提供可靠的密集任務(wù)獎(jiǎng)勵(lì) [45, 54, 64]:成功信號(hào)往往是稀疏的、延遲的,甚至未定義的,且任務(wù)應(yīng)在不確定性充分降低時(shí)終止。與此同時(shí),實(shí)際部署要求實(shí)時(shí)決策:每步計(jì)算不能隨昂貴的貝葉斯推斷而擴(kuò)展。第三,若將學(xué)習(xí)到的信念代理同時(shí)用作策略輸入和內(nèi)在獎(jiǎng)勵(lì)或停止判定的依據(jù),智能體可能利用近似偽影——人為放大獎(jiǎng)勵(lì)或在未真正收縮真實(shí)后驗(yàn)的情況下觸發(fā)提前停止。這些考量對(duì)任何可部署的 ISLC 算法提出了一組耦合的要求。

      形式上,閉環(huán) ISLC 必須滿足四個(gè)耦合要求:
      (R1) 在信念空間中優(yōu)化,以直接減少認(rèn)知不確定性;
      (R2) 在缺乏可靠密集任務(wù)獎(jiǎng)勵(lì)的條件下學(xué)習(xí)(即應(yīng)對(duì)成功信號(hào)稀疏/延遲或未定義的情況);
      (R3) 保持可部署性,即應(yīng)對(duì)每步計(jì)算不能隨昂貴貝葉斯推斷擴(kuò)展的問題;
      (R4) 對(duì)獎(jiǎng)勵(lì)黑客具有魯棒性:策略不得通過操縱學(xué)習(xí)信念代理中的近似誤差(例如低估后驗(yàn)散布)來獲取高內(nèi)在獎(jiǎng)勵(lì),或在未真正收縮后驗(yàn)的情況下滿足停止規(guī)則。

      表 1 總結(jié)了代表性設(shè)計(jì)族對(duì)上述要求的覆蓋情況;沒有任何方法能同時(shí)滿足 (R1)–(R4)。為同時(shí)滿足 (R1)–(R4),我們認(rèn)為必須將貝葉斯正確性與部署時(shí)的計(jì)算解耦。學(xué)習(xí)信號(hào)應(yīng)源自貝葉斯一致的信念更新,然而部署時(shí)的控制器無法承擔(dān)在線運(yùn)行此類更新的開銷。這留下了一個(gè)狹窄的實(shí)用設(shè)計(jì)空間:一個(gè)貝葉斯正確的教師在信念空間中計(jì)算信息論目標(biāo),而一個(gè)快速學(xué)習(xí)的學(xué)生將關(guān)于 Θ 的教師后驗(yàn)壓縮為信念統(tǒng)計(jì)量(例如均值和對(duì)角協(xié)方差),這些統(tǒng)計(jì)量可相對(duì)于粒子預(yù)算以 O(1) 時(shí)間每步更新。值得注意的是,僅演員–評(píng)論家(actor-critic)更新策略參數(shù);粒子濾波器(PF)教師并非規(guī)劃器,僅提供用于獎(jiǎng)勵(lì)計(jì)算和蒸餾目標(biāo)的貝葉斯信念更新。


      一個(gè)關(guān)鍵問題是:為何我們要蒸餾信念,而非直接以端到端方式學(xué)習(xí)?若移除教師并使用與策略條件相同的所學(xué)信念來定義內(nèi)在獎(jiǎng)勵(lì),策略可能利用建模誤差人為增加獎(jiǎng)勵(lì)或減少散布證書,而無需真正降低后驗(yàn)不確定性。反之,若保留貝葉斯一致的信念更新以防止此類偽影,則推斷仍保留在部署循環(huán)中,其成本隨粒子預(yù)算線性擴(kuò)展,違反實(shí)時(shí)約束。信念蒸餾解決了這一張力:它將教師后驗(yàn)遷移至參數(shù)化學(xué)生模型,為控制和停止產(chǎn)生恒定時(shí)間、不確定性校準(zhǔn)的信念統(tǒng)計(jì)量,同時(shí)在訓(xùn)練期間保持獎(jiǎng)勵(lì)與貝葉斯對(duì)齊且僅由教師計(jì)算。若無蒸餾,則必須在可部署性(測(cè)試時(shí)使用 PF)與統(tǒng)計(jì)對(duì)齊及魯棒性(所學(xué)信念同時(shí)定義獎(jiǎng)勵(lì)與控制)之間權(quán)衡,無法同時(shí)滿足 (R1)–(R4)。

      為彌合這些差距,我們提出了一種用于閉環(huán) ISLC 的教師–學(xué)生信念優(yōu)化框架。一個(gè)粒子濾波器(PF)教師維護(hù)參數(shù)向量 Θ 上的貝葉斯一致后驗(yàn)。該教師提供基于連續(xù)信念間離散 KL 散度的密集內(nèi)在獎(jiǎng)勵(lì),作為單步信息增益的高保真代理。一個(gè)快速學(xué)生將教師后驗(yàn)蒸餾為緊湊的對(duì)角高斯信念。蒸餾后的信念為信念條件的演員–評(píng)論家提供恒定時(shí)間特征,并提供基于散布的不確定性證書以實(shí)現(xiàn)原則性停止。在測(cè)試時(shí),我們完全丟棄 PF,僅依賴學(xué)生的信念統(tǒng)計(jì)量,使推斷與終止獨(dú)立于粒子預(yù)算。這種分離使內(nèi)在獎(jiǎng)勵(lì)保持貝葉斯對(duì)齊,同時(shí)使部署擺脫 PF 推斷的開銷。

      我們的主要貢獻(xiàn)包括:
      (1) 我們將 ISLC 形式化為信念空間控制問題,并引入一種耦合的推斷–執(zhí)行架構(gòu),通過 PF 教學(xué)與學(xué)生信念近似,將貝葉斯正確目標(biāo)與部署時(shí)計(jì)算解耦。
      (2) 我們提出一種基于連續(xù)教師后驗(yàn)間單步 KL 散度的密集信息增益內(nèi)在獎(jiǎng)勵(lì),直接將強(qiáng)化學(xué)習(xí)優(yōu)化與后驗(yàn)收縮對(duì)齊,并通過構(gòu)造防止獎(jiǎng)勵(lì)黑客:內(nèi)在獎(jiǎng)勵(lì)僅由 PF 教師后驗(yàn)計(jì)算,而所學(xué)學(xué)生信念僅用于條件化策略(輸出下一步感知?jiǎng)幼鳎┘坝?jì)算部署時(shí)的停止證書。
      (3) 我們通過學(xué)生信念和基于散布的停止證書實(shí)現(xiàn)可部署且可靠的閉環(huán)推斷,該證書顯式控制精度–預(yù)算權(quán)衡,且在測(cè)試/部署時(shí)完全移除 PF 教師。

      2 相關(guān)工作 2.1 面向 ISLC 的信息論規(guī)劃

      閉環(huán)逆源定位與表征(ISLC,亦稱源項(xiàng)估計(jì))是場(chǎng)感知任務(wù)中的一種常見原語:移動(dòng)智能體必須自適應(yīng)地決定下一步的測(cè)量位置,以定位隱藏發(fā)射源并以校準(zhǔn)的不確定性估計(jì)物理參數(shù)。代表性應(yīng)用場(chǎng)景包括:利用移動(dòng)機(jī)器人/無人機(jī)對(duì)大氣釋放事件進(jìn)行源項(xiàng)估計(jì) [7, 24]、為安全監(jiān)測(cè)進(jìn)行放射性源定位 [27, 32],以及更廣泛的傳感設(shè)置中的污染物/源重構(gòu)問題 [5, 34]。

      在方法論上,這些問題與序列貝葉斯實(shí)驗(yàn)設(shè)計(jì)[64, 65] 密切相關(guān),其中動(dòng)作的選擇旨在最大程度地減少關(guān)于未知參數(shù)值 Θ 的不確定性。實(shí)現(xiàn)閉環(huán) ISLC [65] 的一條路徑是將貝葉斯序列推斷[3, 35, 76] 與信息論動(dòng)作選擇相結(jié)合:智能體 [16, 75] 維護(hù)關(guān)于未知源/傳輸參數(shù) Θ 的后驗(yàn)分布,并選擇下一步感知?jiǎng)幼饕宰畲蟪潭鹊厥湛s該信念。

      代表性的基于信息的搜索框架通過序列蒙特卡洛 [3, 76] / 粒子濾波 [1, 36] 來近似 p(Θ | o?:?, p?:?),并使用信息效用函數(shù)(如期望信息增益 [10]、互信息 [66] 或信念間的 KL 散度 [57])評(píng)估候選動(dòng)作。

      與這些顯式信息增益規(guī)劃器并行,許多非學(xué)習(xí)/靜態(tài)策略也采用類似的兩模塊結(jié)構(gòu)——(i) 一個(gè)估計(jì)模塊(貝葉斯/粒子濾波更新)和 (ii) 一個(gè)優(yōu)化不確定性相關(guān)代理目標(biāo)的貪婪控制器。典型例子包括 Infotaxis [29, 47, 71] 和 Entrotaxis [31, 59, 78],它們通過減少信念不確定性(例如方差/熵)來驅(qū)動(dòng)探索;以及基于雙控制的方法(DCEE)[11, 41],通過結(jié)合估計(jì)進(jìn)展項(xiàng)與不確定性減少項(xiàng)的復(fù)合目標(biāo),顯式權(quán)衡利用與探索。

      然而,在線控制循環(huán)通常需要重復(fù)的信念更新以及(通常)對(duì)候選動(dòng)作的前瞻評(píng)估,因此每步計(jì)算成本隨粒子預(yù)算和規(guī)劃視界增長(zhǎng),這成為實(shí)時(shí)部署與大規(guī)模評(píng)估的關(guān)鍵障礙(違反第 1 節(jié)中的可部署性要求 (R3))。

      2.2 用于主動(dòng)感知與定位的強(qiáng)化學(xué)習(xí)

      一個(gè)互補(bǔ)的方向是利用強(qiáng)化學(xué)習(xí)(RL)[43, 49, 62] 來攤銷決策過程,學(xué)習(xí)一個(gè)將觀測(cè)(以及可能的信念特征)映射到感知?jiǎng)幼鞯牟呗浴T?ISLC 及相關(guān)的主動(dòng)感知任務(wù) [60] 中,演員–評(píng)論家(actor-critic)[43, 48] 方法被廣泛采用,其中狀態(tài)表示將原始觀測(cè)與來自粒子濾波的緊湊信念摘要(例如后驗(yàn)矩或參數(shù)化壓縮形式,如高斯混合模型 [39, 54])進(jìn)行增強(qiáng)。這種方式以單次策略前向傳播替代顯式的在線規(guī)劃,從而提升部署時(shí)的效率。

      為進(jìn)一步提升可部署性,許多工作 [26, 73, 74] 將基于粒子的后驗(yàn)壓縮為低維信念表示(矩、混合擬合或?qū)W習(xí)的集合編碼器),更廣泛地說,使用攤銷推斷(amortized inference)以(近似)恒定時(shí)間預(yù)測(cè)后驗(yàn)統(tǒng)計(jì)量,從而避免控制過程中的迭代貝葉斯更新 [6]。

      盡管如此,基于強(qiáng)化學(xué)習(xí)的方法通常依賴于觀測(cè)空間的獎(jiǎng)勵(lì)塑形 [51, 55](例如濃度改善)或稀疏的終端成功信號(hào),這可能與后驗(yàn)收縮目標(biāo)不一致,并鼓勵(lì)捷徑行為。此外,在許多科學(xué)場(chǎng)任務(wù)中,成功 [64] 并未被顯式標(biāo)注,而應(yīng)由充分低的不確定性隱式判定;自終止目標(biāo)檢測(cè)機(jī)制通過將信念散布作為停止觸發(fā)條件來應(yīng)對(duì)這一問題 [64]。

      總體而言,基于強(qiáng)化學(xué)習(xí)的方法往往能滿足可部署性要求 (R3),但若學(xué)習(xí)信號(hào)設(shè)計(jì)不當(dāng),可能難以應(yīng)對(duì)信念空間目標(biāo) (R1) 與稀疏/隱式監(jiān)督 (R2)。在控制循環(huán)內(nèi)部使用近似信念還可能破壞科學(xué)語義。若同一個(gè)所學(xué)信念代理既用于條件化策略,又用于定義內(nèi)在獎(jiǎng)勵(lì)或停止判定 [9],智能體可能利用代理模型的偽影,在未真正收縮貝葉斯后驗(yàn)的情況下獲取獎(jiǎng)勵(lì)或提前停止(違反要求 (R4))。

      這促使我們采用教師–學(xué)生[4, 21, 61, 72] 架構(gòu),將貝葉斯目標(biāo)與部署時(shí)計(jì)算解耦:一個(gè)貝葉斯正確的推斷模塊可作為監(jiān)督信號(hào)源,而一個(gè)快速攤銷模型則提供用于實(shí)時(shí)控制的信念統(tǒng)計(jì)量。

      3 預(yù)備知識(shí) 3.1 場(chǎng)建模的統(tǒng)一框架

      包括污染物擴(kuò)散氣體擴(kuò)散電場(chǎng)分布在內(nèi)的廣泛自然現(xiàn)象,都可以在一個(gè)統(tǒng)一的物理框架內(nèi)進(jìn)行描述。盡管這些過程表面上存在差異,但它們都受三個(gè)基本項(xiàng)支配:擴(kuò)散對(duì)流外部源。這些項(xiàng)通常由一般對(duì)流-擴(kuò)散方程(Convection-Diffusion Equation, CDE)[23] 來刻畫,該方程提供了一個(gè)通用的數(shù)學(xué)抽象:


      3.2 高斯羽流模型

      作為對(duì)流-擴(kuò)散框架的經(jīng)典解析實(shí)例,高斯羽流模型(Gaussian Plume Model, GPM)如圖1所示,提供了一個(gè)穩(wěn)態(tài)解,在建模保真度和計(jì)算效率之間取得平衡。在適當(dāng)假設(shè)下,所得場(chǎng)分布由下式給出




      3.3 部分可觀測(cè)馬爾可夫決策過程(Partially Observable MDP)



      4 方法

      我們將閉環(huán) ISLC 形式化為一個(gè)信念空間控制問題,其目標(biāo)是后驗(yàn)收縮。第 4.1 小節(jié)定義了策略所使用的信念狀態(tài)。第 4.2–4.3 小節(jié)描述了信念的維護(hù)與攤銷計(jì)算過程。第 4.4 小節(jié)指明了用于訓(xùn)練的基于 KL 散度的內(nèi)在獎(jiǎng)勵(lì)。第 4.5–4.6 小節(jié)介紹了信念條件的演員-評(píng)論家(Actor-Critic)以及停止準(zhǔn)則。



      4.2 基于粒子濾波的教師信念


      4.3 基于 PF 蒸餾的學(xué)生后驗(yàn)


      4.4 基于 KL 的內(nèi)在獎(jiǎng)勵(lì)




      4.5 信念特征與策略學(xué)習(xí)




      4.5 信念特征與策略學(xué)習(xí)




      4.6 停止規(guī)則與復(fù)雜度


      5 實(shí)驗(yàn)



      研究問題 (RQ): 我們的實(shí)驗(yàn)旨在回答以下研究問題:

      (1) (RQ1,見 5.1 節(jié)) 在實(shí)踐中,Distill-Belief 是否能在跨越不同物理場(chǎng)模態(tài)的標(biāo)準(zhǔn)單源 ISLC 任務(wù)中,持續(xù)地優(yōu)于強(qiáng)大的基于 RL 和基于規(guī)劃的基線方法,同時(shí)在提升任務(wù)性能以及推斷/不確定性質(zhì)量方面表現(xiàn)優(yōu)異?

      (2) (RQ2,見 5.2 節(jié)) 隨著同時(shí)存在的源數(shù)量增加(即后驗(yàn)分布日益呈現(xiàn)多模態(tài)特性),該方法在現(xiàn)實(shí)場(chǎng)景中的擴(kuò)展性如何?

      (3) (RQ3,見 5.3 節(jié)) 在可達(dá)性限制了信息性感知的障礙物受限(非凸)環(huán)境中,Distill-Belief 能否保持高成功率和效率?

      (4) (RQ4,見 5.4 節(jié)) 關(guān)鍵設(shè)計(jì)選擇的貢獻(xiàn)是什么,以及這些選擇如何影響在現(xiàn)實(shí)設(shè)置中對(duì)捷徑/獎(jiǎng)勵(lì)黑客(reward-hacking)行為的魯棒性?

      (5) (RQ5,見 5.5 節(jié)) 與基于 PF(粒子濾波)的推斷相比,蒸餾后的學(xué)生在粒子預(yù)算方面的部署時(shí)推斷成本是多少?

      (6) (RQ6,見 5.6 節(jié)) 結(jié)果對(duì) PF 超參數(shù)的敏感度如何,以及在實(shí)踐中隨著粒子預(yù)算的變化,實(shí)際的性能-成本前沿(performance-cost frontier)位于何處?

      5.1 單源跨域結(jié)果

      我們?cè)谝粋€(gè)隨機(jī)生成場(chǎng)景的留出集(held-out set)上評(píng)估分布內(nèi)(ID)性能。除非另有說明,所有方法共享相同的環(huán)境配置、訓(xùn)練預(yù)算和網(wǎng)絡(luò)架構(gòu)(如適用),并且我們報(bào)告了基于多個(gè)隨機(jī)種子的均值和標(biāo)準(zhǔn)差。我們使用第 5 節(jié)中定義的指標(biāo)來聯(lián)合評(píng)估任務(wù)性能和信念/不確定性質(zhì)量,并遵循每個(gè)基線方法推薦的超參數(shù),除非另有明確說明。額外的實(shí)現(xiàn)細(xì)節(jié)見附錄 D.4。

      表2:不同情景下的基線比較


      表 2 總結(jié)了七種場(chǎng)類型下的核心單源結(jié)果。總體而言,DISTILL-BELIEF 實(shí)現(xiàn)了最強(qiáng)的任務(wù)成功率和效率:它始終能達(dá)到最高(或接近最高)的成功率(SR),同時(shí)需要明顯更少的步數(shù)(TE)即可達(dá)到停止準(zhǔn)則。在諸如電場(chǎng)(Elec.)和能量場(chǎng)(En.)等具有挑戰(zhàn)性的模態(tài)上,增益最為顯著;在這些模態(tài)中,基于規(guī)劃的基線方法性能大幅下降,而我們的方法則以更短的軌跡保持了顯著更高的成功率。

      一個(gè)關(guān)鍵的觀察結(jié)果是,高 SR 并非僅靠“提前停止”獲得的。我們的方法在所有場(chǎng)類型下也產(chǎn)生了顯著更低的定位誤差(LPS),這表明該策略確實(shí)是在驅(qū)動(dòng)信念收縮,而非過早終止。相比之下,規(guī)劃基線(Infotaxis / Entrotaxis / DCEE)傾向于遭受短視的信息搜尋或在噪聲觀測(cè)下過于保守的探索,導(dǎo)致軌跡過長(zhǎng)且 SR 較低。在基于 RL 的競(jìng)爭(zhēng)者中,我們觀察到探索效率與推斷質(zhì)量之間存在明顯的權(quán)衡。雖然一些 RL 基線可以在較簡(jiǎn)單的模態(tài)中實(shí)現(xiàn)有競(jìng)爭(zhēng)力的表現(xiàn)指標(biāo)(REV),但它們通常需要更長(zhǎng)的軌跡和/或表現(xiàn)出較差的 LPS,這表明它們不能像我們的方法那樣可靠地減少后驗(yàn)散布。通過將貝葉斯正確的教師獎(jiǎng)勵(lì)與攤銷的信念特征顯式耦合,DISTILL-BELIEF 同時(shí)實(shí)現(xiàn)了高成功率和快速終止,證明了信念空間目標(biāo)比稀疏或啟發(fā)式獎(jiǎng)勵(lì)提供了更強(qiáng)的訓(xùn)練信號(hào)。

      5.2 多源定位

      表 3 報(bào)告了在具有 2/3/4 個(gè)源的溫度場(chǎng)中的多源定位性能。雖然單源定位是一個(gè)標(biāo)準(zhǔn)基準(zhǔn),但許多現(xiàn)實(shí)場(chǎng)景涉及多個(gè)發(fā)射源(例如,多個(gè)泄漏點(diǎn)或熱點(diǎn)),導(dǎo)致觀測(cè)疊加和多模態(tài)后驗(yàn)分布。因此,該設(shè)置具有實(shí)質(zhì)性的挑戰(zhàn):智能體必須既在信念空間中區(qū)分多個(gè)峰值(消除歧義),又要分配感知軌跡以減少各源的不確定性。通過增加源的數(shù)量,我們顯式地測(cè)試了那些在近似單模態(tài)后驗(yàn)下表現(xiàn)良好的方法,能否在不退化為局部感知模式的前提下,擴(kuò)展到多模態(tài)信念。我們使用 ASLE、WCSE 和 BCR 來總結(jié)性能,以捕捉跨源的平均準(zhǔn)確性和最壞情況下的可靠性。


      如表 3 所示,隨著源數(shù)量的增加,性能有所下降,這是由于觀測(cè)疊加和多模態(tài)性導(dǎo)致的,符合預(yù)期。盡管如此,在 2/3/4 個(gè)源的情況下,Distill-Belief 在成功率(SR)和軌跡效率(TE)方面仍然是表現(xiàn)最佳的方法。這表明學(xué)習(xí)到的策略并沒有退化為單一的局部感知模式;相反,它繼續(xù)收集具有信息量的測(cè)量數(shù)據(jù),以減少全局歧義。規(guī)劃基線在 SR 上表現(xiàn)出更急劇的下降,在 TE 上表現(xiàn)出快速增加,這與它們?cè)谶\(yùn)動(dòng)約束下處理多模態(tài)后驗(yàn)和長(zhǎng)視界消歧的困難相一致。

      5.3 障礙物受限環(huán)境

      表 4 評(píng)估了在不同障礙物密度下的障礙物受限環(huán)境中的性能。障礙物導(dǎo)致了非凸的可行區(qū)域,并且往往阻礙智能體采取直接路徑前往信息量最大的區(qū)域,這可能會(huì)暴露貪婪信息搜尋基線以及未能適當(dāng)考慮可達(dá)性的策略的脆弱性。包含這一系列測(cè)試是為了評(píng)估實(shí)際可部署性:智能體必須在稀疏、中等和密集的障礙物布局下,在保持定位質(zhì)量的同時(shí)生成高效且可行的軌跡。我們報(bào)告 SR、TE 和 LPS,以聯(lián)合反映受限導(dǎo)航中的定位性能、感知效率和路徑級(jí)行為。


      表 4 顯示,隨著障礙物密度從稀疏增加到密集,所有方法的 SR 均降低且 TE 增加,這是因?yàn)榉峭沟目蛇_(dá)性限制了對(duì)信息量最大區(qū)域的訪問。在所有密度下,Distill-Belief 仍然是最強(qiáng)的方法,實(shí)現(xiàn)了最高的成功率(在稀疏/中等/密集環(huán)境下 SR 分別為 0.90/0.86/0.80),同時(shí)以最少的步數(shù)終止(TE 分別為 21/25/31),這表明其進(jìn)行了由信念驅(qū)動(dòng)但感知約束的探索。在 RL 基線中,GMM-IG 是最接近的競(jìng)爭(zhēng)者,但在成功率和效率方面仍落后(SR: 0.85/0.81/0.74, TE: 24/28/35),而 AGDC 在障礙物環(huán)境下的效率尤其低下(TE: 46/52/61),這表明其難以協(xié)調(diào)信息性感知與可行導(dǎo)航。基于規(guī)劃的方法在密集布局中性能下降更為劇烈(Infotaxis TE 為 71;DCEE SR 為 0.38 且 TE 為 80),這與它們過度致力于局部信息量大但全局效率低的路徑,以及未能在視界內(nèi)滿足證書要求(即未能達(dá)到停止標(biāo)準(zhǔn))的情況相一致。

      5.4 消融實(shí)驗(yàn)

      我們進(jìn)行了兩項(xiàng)互補(bǔ)的消融實(shí)驗(yàn),以分離信念優(yōu)化流程和獎(jiǎng)勵(lì)塑形的貢獻(xiàn)。表 7 消融了教師-學(xué)生信念流程中的關(guān)鍵組件。表 8 通過比較基于密集 KL 散度的信息增益與稀疏的硬成功反饋,進(jìn)一步獨(dú)立評(píng)估了獎(jiǎng)勵(lì)設(shè)計(jì)。除非另有說明,我們報(bào)告 SR、TE、SLE、FPE 和 UQ(NLL);針對(duì)獎(jiǎng)勵(lì)設(shè)計(jì),我們額外報(bào)告 Steps@70% SR 以量化樣本效率。


      信念優(yōu)化流程。 表 7 和圖 3c 表明,性能增益并非源于單一的啟發(fā)式方法。移除基于 KL 的 IG 獎(jiǎng)勵(lì)會(huì)大幅降低 SR 并增加 TE,這表明密集的信念空間塑形對(duì)于樣本高效的探索至關(guān)重要。從學(xué)生信念計(jì)算 KL 目標(biāo)會(huì)同時(shí)降低性能和 UQ,這與當(dāng)同一近似既用于獎(jiǎng)勵(lì)又用于策略輸入時(shí)出現(xiàn)的走捷徑(shortcutting)現(xiàn)象一致。蒸餾對(duì)于高效部署至關(guān)重要:僅使用 PF 進(jìn)行測(cè)試雖然仍具有競(jìng)爭(zhēng)力,但放棄了攤銷推斷的優(yōu)勢(shì);而在沒有 PF 監(jiān)督的情況下僅訓(xùn)練學(xué)生模型會(huì)顯著損害 SR/SLE/FPE/UQ,這凸顯了貝葉斯正確的教師指導(dǎo)的必要性。最后,移除 Spread 特征或基于 Spread 的停止主要損害了效率和校準(zhǔn)度,而禁用 MH 更新(rejuvenation)則降低了穩(wěn)定性和后驗(yàn)質(zhì)量,這表明 PF 的多樣性改善了監(jiān)督效果。

      獎(jiǎng)勵(lì)設(shè)計(jì)。 表 8 和圖 3a 證實(shí),稀疏的硬成功反饋的可學(xué)習(xí)性顯著較差,導(dǎo)致 SR 較低、UQ 較差以及樣本效率明顯低下。相比之下,基于密集 KL 散度的信息增益獎(jiǎng)勵(lì)在整個(gè) episode 期間提供了經(jīng)過塑形的、與信念對(duì)齊的反饋,加速了學(xué)習(xí)并改善了軌跡效率和后驗(yàn)質(zhì)量。混合變體和課程學(xué)習(xí)變體表明,一旦出現(xiàn)了可靠的探索行為,就可以添加任務(wù)成功信號(hào),而不會(huì)犧牲 KL 塑形帶來的益處。


      5.5 部署成本與攤銷推斷

      表 9 專注于測(cè)試時(shí)成本。基于 PF(粒子濾波)的信念更新隨粒子數(shù)量線性擴(kuò)展,這可能成為實(shí)時(shí)決策或在大量場(chǎng)景中部署的瓶頸。我們的教師–學(xué)生設(shè)計(jì)正是為了攤銷貝葉斯推斷:學(xué)生模型以恒定時(shí)間預(yù)測(cè)信念特征,同時(shí)保留了貝葉斯正確訓(xùn)練信號(hào)的優(yōu)勢(shì)。該表通過將僅學(xué)生推斷與僅 PF 測(cè)試進(jìn)行對(duì)比,并展示那些在測(cè)試時(shí)依賴 PF 的方法如何產(chǎn)生 O ( N ) 的每步開銷,從而顯式地將性能與可部署性解耦。表 9 和圖 3b 強(qiáng)調(diào)了我們教師–學(xué)生設(shè)計(jì)的實(shí)際動(dòng)機(jī)。PF 更新每步按 O ( N ) 擴(kuò)展,并迅速成為部署瓶頸,而蒸餾后的學(xué)生模型以 O ( 1 ) 時(shí)間預(yù)測(cè)信念特征。重要的是,恒定時(shí)間的部署并非源于削弱訓(xùn)練目標(biāo):貝葉斯正確性在訓(xùn)練期間通過 PF 教師強(qiáng)制執(zhí)行,而學(xué)生模型通過蒸餾繼承了這種行為。



      5.6 對(duì)預(yù)算與閾值的敏感性




      6 局限性與倫理考量

      實(shí)驗(yàn)使用基于物理原理的模擬器進(jìn)行隨機(jī)感知;實(shí)際部署可能會(huì)增加復(fù)雜性。仍存在兩個(gè)局限性。1) 訓(xùn)練依賴于貝葉斯一致的粒子濾波教師以獲取信息增益獎(jiǎng)勵(lì)和目標(biāo),隨著參數(shù)空間的增長(zhǎng),這可能代價(jià)高昂。2) 緊湊的測(cè)試時(shí)信念在具有多模態(tài)后驗(yàn)的多源情況下可能效果較差。本研究未使用人類受試者或可識(shí)別個(gè)人身份的數(shù)據(jù);實(shí)際部署應(yīng)遵循機(jī)構(gòu)政策和同意要求。最后,我們強(qiáng)調(diào)我們已經(jīng)使用非 AI 方法在現(xiàn)實(shí)/物理實(shí)驗(yàn)中 [28, 30] 驗(yàn)證了整體感知與定位流程,本文通過基于蒸餾的策略擴(kuò)展了該已驗(yàn)證的設(shè)置。

      7 結(jié)論

      我們提出了 Distill-Belief,一種用于閉環(huán) ISLC 的教師–學(xué)生框架。在該框架中,粒子濾波教師在訓(xùn)練期間提供貝葉斯一致的基于 KL 散度的信息增益獎(jiǎng)勵(lì),而緊湊的學(xué)生信念則在測(cè)試時(shí)實(shí)現(xiàn)恒定計(jì)算成本的控制以及基于不確定性的停止機(jī)制。在七種基于物理原理的模態(tài)和壓力測(cè)試中,與強(qiáng)大的基線方法相比,該方法提升了成功率、樣本效率和不確定性質(zhì)量,同時(shí)有效緩解了獎(jiǎng)勵(lì)黑客問題。

      原文鏈接:https://arxiv.org/pdf/2604.26095

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      時(shí)光慢旅人
      2026-05-18 01:38:00
      安理會(huì)重磅發(fā)聲!中方強(qiáng)硬亮劍:以色列必須無條件撤出

      安理會(huì)重磅發(fā)聲!中方強(qiáng)硬亮劍:以色列必須無條件撤出

      低調(diào)看天下
      2026-05-17 16:59:30
      全網(wǎng)都猜錯(cuò)了!張?zhí)m突然停更阿姨被臨時(shí)調(diào)休,真相是汪小菲的用心

      全網(wǎng)都猜錯(cuò)了!張?zhí)m突然停更阿姨被臨時(shí)調(diào)休,真相是汪小菲的用心

      阿廢冷眼觀察所
      2026-05-16 16:21:06
      林徽因落選的國(guó)徽方案,網(wǎng)友看后感嘆:審美確實(shí)厲害,但真不合適

      林徽因落選的國(guó)徽方案,網(wǎng)友看后感嘆:審美確實(shí)厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      賭王孫女不幸離世終年58歲!追思會(huì)內(nèi)部曝光,親友送別最后一程

      賭王孫女不幸離世終年58歲!追思會(huì)內(nèi)部曝光,親友送別最后一程

      喜歡歷史的阿繁
      2026-05-17 22:27:50
      耿同學(xué)扳倒多個(gè)學(xué)術(shù)大拿,本人背景曝光,他這么干的原因找到了

      耿同學(xué)扳倒多個(gè)學(xué)術(shù)大拿,本人背景曝光,他這么干的原因找到了

      平老師666
      2026-05-15 21:35:30
      中國(guó)為啥能迅速崛起,德國(guó)專家給出看法:中國(guó)沒覆蓋全民族的宗教

      中國(guó)為啥能迅速崛起,德國(guó)專家給出看法:中國(guó)沒覆蓋全民族的宗教

      抽象派大師
      2026-05-16 15:17:29
      為什么男人每次偷情要開房,女人每次偷情都在車?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
      2026-04-28 10:25:11
      玩嗨了!黃仁勛在大爺煙斗上簽名,庫(kù)克買咖啡,特朗普兒子游長(zhǎng)城

      玩嗨了!黃仁勛在大爺煙斗上簽名,庫(kù)克買咖啡,特朗普兒子游長(zhǎng)城

      青杉依舊啊啊
      2026-05-17 07:47:44
      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進(jìn)一次毒?

      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進(jìn)一次毒?

      路醫(yī)生健康科普
      2026-05-17 19:35:03
      慌了!知名化工平臺(tái)暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      慌了!知名化工平臺(tái)暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      新浪財(cái)經(jīng)
      2026-05-17 12:12:48
      網(wǎng)友說未來盡量別去夜場(chǎng),小仙女們要化債了!

      網(wǎng)友說未來盡量別去夜場(chǎng),小仙女們要化債了!

      燈錦年
      2026-05-16 14:42:03
      臺(tái)灣回歸終極方案:土地回歸中國(guó),人員自由往來,兩岸統(tǒng)一新路徑

      臺(tái)灣回歸終極方案:土地回歸中國(guó),人員自由往來,兩岸統(tǒng)一新路徑

      陳腕特色體育解說
      2026-05-17 21:12:19
      一個(gè)人認(rèn)知在不在你之上,看這4個(gè)細(xì)節(jié)就夠了

      一個(gè)人認(rèn)知在不在你之上,看這4個(gè)細(xì)節(jié)就夠了

      洞見
      2026-04-16 11:35:51
      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      奇葩游戲醬
      2026-05-18 03:26:37
      圖片報(bào):1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      圖片報(bào):1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      懂球帝
      2026-05-17 21:39:36
      35美元小配件,讓有線CarPlay變無線

      35美元小配件,讓有線CarPlay變無線

      賽博蘭博
      2026-05-17 03:15:05
      99%的女人出軌完男人后,都會(huì)默契地做出這3種行為,不信你看看

      99%的女人出軌完男人后,都會(huì)默契地做出這3種行為,不信你看看

      加油丁小文
      2026-05-03 08:30:16
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      動(dòng)物奇奇怪怪
      2026-05-16 12:41:37
      俄烏打完后,俄國(guó)際地位會(huì)下降到何種地步?看俄羅斯周邊就知道!

      俄烏打完后,俄國(guó)際地位會(huì)下降到何種地步?看俄羅斯周邊就知道!

      忠于法紀(jì)
      2026-05-16 17:49:52
      2026-05-18 04:20:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      三大運(yùn)營(yíng)商即將免月租?多方回應(yīng)

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對(duì)伊朗軍事打擊

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對(duì)伊朗軍事打擊

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認(rèn)識(shí)到問題嚴(yán)重性!

      財(cái)經(jīng)要聞

      長(zhǎng)鑫科技 預(yù)計(jì)上半年凈利至少500億元

      汽車要聞

      車長(zhǎng)超5米/雙動(dòng)力可選 昊鉑S600預(yù)售權(quán)益價(jià)18.89萬起

      態(tài)度原創(chuàng)

      教育
      本地
      健康
      時(shí)尚
      公開課

      教育要聞

      南京大學(xué):熱門專業(yè),就業(yè)現(xiàn)狀及報(bào)考分析#搜索千校視頻計(jì)劃

      本地新聞

      用蘇繡的方式,打開江西婺源

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      “這條裙子”是今年夏天的頂流!誰穿誰好看

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕亚洲乱码熟女1区2区| 免费无码又爽又刺激网站直播| 中文字幕一区二区三区视频| 在线a人片免费观看高清| 大战丰满无码人妻50p | 女同久久精品国产99国| 桃花岛亚洲成在人线av| 久久www视频| 自拍偷拍一区二区三区四区 | 国内精品视频一区二区三区| 亚洲熟妇国产熟妇肥婆| 东京热人妻丝袜无码AV一二三区观| av在线亚洲一区| 99视频精品| 狠狠躁日日躁人人爽| 欧美日韩一区二区三区自拍| 中文av无码人妻一区二区三区| 无码人妻一区二区三区免费N鬼沢 亚洲国产精品自产在线播放 | 国产成人亚洲综合无码| 日韩新无码精品毛片| 日韩人妻中文无码一区二区| 国内精品久久久久影院免费| 日日噜噜夜夜狠狠久久无码区| 免费92淫黄看电影| 亚洲精品国产精品国自产| 120AV在线视频| 欧美一级a视频免费放欧美片| 伊人天天久大香线蕉av色| 精品乱码一区二区三四五区| 伊人久久大香线蕉aⅴ色| 国产精品夜夜爽7777777| 欧洲精品5区| 国产网站一区二区三区| 中文无码一区二区不卡av| 亚欧乱色熟女一区二区三区| 国产又粗又猛又大爽又黄老大爷| 亚洲欧美aⅴ| 国产精品成人av在线观看春天| 日本免费一区二区三区中文字幕 | 成人午夜大片免费看爽爽爽| 在线观看国产精品乱码app|