物理信息驅動的跟蹤(PIT)
Physics-Informed Tracking (PIT)
https://arxiv.org/pdf/2604.16895
![]()
摘要
我們提出了物理信息跟蹤(PIT),這是一個基于視頻的單粒子跟蹤框架,其中神經網絡自編碼器將粒子定位為一個熱圖峰值(地標),嵌入在自編碼器中的可微物理模塊約束隨時間變化的多個地標(一條軌跡)以滿足已知的動力學。新穎的物理信息地標損失(PILL)將預測的軌跡與地標進行反向比較,在無需標簽的情況下強制執行物理一致性。其監督變體(PILLS)則將預測與來自模擬的真值位置、速度和彈跳進行比較,實現端到端的反向傳播。
為了支持監督和無監督學習,我們使用了一個具有分裂瓶頸的自編碼器,它將 A) 通過地標熱圖實現的與跟蹤相關的結構,與 B) 背景噪聲和隨后的圖像重建分離開來。我們評估了一個重復的 2? 因子設計(n = 4 次重復,64 種配置),結果表明,PILLS 在干凈和噪聲條件下,對于雙線性和物理優化的解碼器輸出,始終能夠實現亞像素級的跟蹤精度。
1 引言
在視頻中跟蹤物體是計算機視覺中的一個核心問題。最早成功且高效的目標檢測深度學習方法包括 Faster R-CNN(Ren et al. [2015])和 YOLO(Redmon et al. [2016]),而具有跳躍連接的架構,特別是 ResNet(He et al. [2016])和 U-Net(Ronneberger et al. [2015]),已成為密集預測任務的標準。最近,基于關鍵點的方法(也稱為地標方法),即通過將物體定位為熱圖中的峰值,受到了關注。CenterNet(Duan et al. [2019])將物體檢測為關鍵點三元組,而 Zhou et al. [2019] 提出了一種更簡單的基于熱圖的公式,其中物體被表示為中心點。我們的工作受到后一種方法的啟發,使用熱圖峰值作為地標位置。自編碼器可以在無需標簽的情況下學習緊湊的潛表示(Bengio [2012]),而去噪自編碼器(DAEs)通過從噪聲輸入中重建干凈數據來提高魯棒性(Vincent et al. [2008])。我們的工作建立在這些架構的跳躍連接、地標設計和自編碼器原理之上,并通過物理信息約束對其進行擴展,以在粒子跟蹤中實現更精確的地標定位。
1.1 自編碼器跟蹤與科學機器學習中的相關工作
在跟蹤領域,基于自編碼器的方法已被用于狀態估計(Xu et al. [2021])和高速特征壓縮(Choi et al. [2018]),然而這些方法均未將物理約束納入跟蹤過程。物理信息神經網絡(PINNs)(Raissi et al. [2019])是為連續介質力學和偏微分方程開發的,它將物理定律直接嵌入學習過程,使得在標注數據稀缺的情況下能夠實現數據驅動的解決方案。這一原則已被擴展至自編碼器:物理信息自編碼器(PIAEs)在潛表示中強制保持物理一致性,例如通過使非線性動力學線性化的庫普曼算子(Rice et al. [2021])。
物理信息軌跡自編碼器(PITA)(Fischer et al. [2024])是一種自編碼器,它以車輛軌跡坐標作為顯式輸入,并集成運動學自行車模型作為物理正則化,以生成平滑且物理上合理的重建結果。值得注意的是,Fischer et al. 指出,據他們所知,此前沒有自編碼器將物理約束納入軌跡編碼中。與 PITA 不同,PIT 必須在應用物理約束之前,首先通過學到的熱圖從原始視頻幀中隱式地提取粒子坐標。Erichson et al. [2019] 引入了一種用于從視覺快照預測流體流動的物理信息自編碼器,其中跳躍連接將動力學模型與恒等保持分量分離,且李雅普諾夫穩定性先驗約束了學習到的動力學。PIT 采用類似的分離原則并通過其分裂瓶頸實現,但用顯式運動方程替換了穩定性先驗,并在稀疏地標熱圖上操作,而非密集流場。
與此密切相關的是,Kienzle et al. [2023] 利用運動物理定律從 2D 標簽學習單目 3D 物體定位:他們的位置估計網絡從單張圖像預測 2D 熱圖和深度圖,并且物理感知預測模塊(一種帶有軟勢壁的神經常微分方程)通過未來幀一致性損失來監督深度。PIT 存在根本性差異:(i) 他們的問題是單圖像 3D 定位,而 PIT 執行 2D 空間中的時序地標跟蹤;(ii) 他們的熱圖使用真值(GT)2D 標簽進行訓練,而 PIT 的 PILL 是完全無監督的;(iii) 他們的物理模塊在推理時(單圖像測試階段)被丟棄,而 PIT 的可微 Velocity-Verlet 模塊在訓練和推理時均保持激活狀態,并通過單次前向傳播輸出位置、速度和彈跳結果。
SINDy(Brunton et al. [2016])通過稀疏回歸從數據中發現控制方程,Brunton 和 Kutz [2022] 對數據驅動動力系統進行了全面論述。盡管這些方法在潛表示或軌跡預測中強制執行物理一致性,但尚無方法將物理信息約束直接應用于采用自編碼器架構的視覺地標跟蹤。PIT 通過引入物理信息損失(PILL 和 PILLS)彌補了這一空白,這些損失約束地標軌跡以滿足已知的運動動力學,從而實現了位置、速度和彈跳估計的端到端學習。此外,PIT 將自編碼器與結構化瓶頸相結合,以分離跟蹤地標與背景噪聲,從而同時支持監督和無監督學習。
1.2 貢獻
我們提出了物理信息跟蹤(PIT),其貢獻如下。首先,我們引入了一種分裂自編碼器瓶頸,它將(A)與跟蹤相關的地標熱圖(其最大值對應粒子位置)與(B)用于圖像重建的背景/噪聲分量分離開來。該設計受 Erichson 等人 [2019] 中動力學與身份分離的啟發,我們將地標輸出稱為自編碼器地標輸出(AELO),或在應用真值監督時稱為 AELOS。其次,我們引入了物理信息地標損失(PILL),這是一種無監督損失,它約束地標軌跡以滿足已知的物理定律——例如重力驅動的拋物線運動——而無需真值標簽。PILL 在概念上與 PINNs 相關,但應用于地標跟蹤而非場回歸。第三,我們引入了一個監督變體,即物理信息地標損失監督版(PILLS),其中網絡預測的地標通過一個演化系統動力學的可微物理模塊投影到物理狀態空間;所有算子都是計算圖的一部分,從而實現了位置、速度和彈跳動力學的端到端監督學習。最后,物理信息方法的一個關鍵優勢在于,PILL 和 PILLS 不僅提供優化的位置估計,還提供速度預測和彈跳時機/位置,所有這些都來自可微物理模塊的單次前向傳播——這些物理狀態預測是標準基于熱圖的跟蹤方法所無法提供的。
我們在干凈和噪聲條件下的模擬球軌跡上進行評估,使用 CenterNet 風格的 Duan 等人 [2019] 熱圖監督作為我們的基線,使用具有跳躍連接的多尺度解碼器進行地標優化,并采用重復的 2? 因子設計(n = 4 次重復,64 種配置)。結果表明,與標準熱圖訓練相比,物理信息地標約束始終能提高跟蹤性能。
2 數據
該數據集由合成視頻序列組成,這些序列是通過模擬球體沿拋物線軌跡運動并帶有非彈性邊界碰撞而創建的(表1)。
2.1 物理:球體的純重力模型
從牛頓第二定律出發
![]()
![]()
2.2 隨機初始位置和速度生成
![]()
![]()
這確保了球心的初始化位置完全位于圖像域內。為確保可重復性,所有隨機采樣均使用固定的偽隨機種子執行,其中 NumPy 種子設為 42。
![]()
2.3 實驗設置、數據劃分與視頻生成
表1總結了所有模擬和數據參數。合成視頻數據被劃分為訓練集(100個序列)、驗證集(50個序列)和測試集(100個序列)。所有劃分共享相同的物理和成像參數,但在隨機初始條件方面有所不同,這些條件是從位置和速度的連續均勻分布中采樣的。沒有任何序列出現在多個劃分中。訓練集用于模型學習,驗證集用于模型選擇(每個指標的最佳epoch),測試集僅用于最終評估。
![]()
![]()
![]()
3 方法
在本節中,我們描述 PIT 編碼器-解碼器架構、包含六個二值因子(A–F)的訓練過程,以及評估協議。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4 結果
性能展示在第 4.1 和 4.2 節中,關于結果的擴展討論提供在 B 節中。
4.1 因子的測試損失
表2和表3報告了在九個跟蹤輸出中最低的測試 L1 跟蹤損失,并針對因子 F 的兩種噪聲設置分別展示。
![]()
對于兩種噪聲條件,包含監督物理信息損失(PILLS,因子 E)的配置在實現跨跟蹤變量最低損失的行中出現頻率最高。
在無噪聲設置(F=0)下,第23行和第31行(均為 A1B1C1E1)在雙線性和物理優化輸出上實現了最低的解碼器誤差,具有亞像素精度(在尺度112上 ≤0.42 px)。在噪聲條件下(F=1),第55行(A1B1C1D0E1F1)取得了最佳的雙線性和物理優化解碼器誤差,表明 PILLS 即使在 σ=1 噪聲下也能保持亞像素精度。第39行(基線,A1B1C1D0E0F1)在尺度112和224上保持了最低的硬 argmax 誤差,這與硬 argmax 對熱圖形狀不太敏感但僅限于整數分辨率的特性一致。
在最低分辨率(B56 和 P56)下,性能相比更高分辨率有所下降,表明在當前參數設置下,雙線性上采樣結合物理模塊預測提供的學習信號不足。
4.2 因子效應
因子效應在表4(編碼器)和表5(解碼器)中按每個跟蹤變量展示,按平均幅度大小排名的前10個最大效應列出。
![]()
主導的主效應與模型中編碼器和解碼器的物理信息跟蹤(PILLS)因子(E)相關。特別是,監督物理損失(E)和解碼器(A)在解碼器上表現出最大的負效應,表明當這些主效應對解碼器啟用并結合在二階交互作用中時,測試誤差顯著降低。
輸入噪聲增強(F)如預期所示表現出強烈的正效應,表明噪聲增加了跟蹤任務的難度。特別是,主效應 E 具有負效應,且在其參與的所有高階交互作用中也具有負效應。令人驚訝的是,因子 C 的主效應在編碼器跟蹤上具有正值,類似于因子 A 的主效應,但在解碼器上如預期為負值。與 C 相反,因子 D 在解碼器中具有正值,但在編碼器中具有負值,并且它是四個有益的高階交互作用項的一部分。
4.3 速度和彈跳預測
物理信息方法的一個關鍵優勢是,模型從單次前向傳播中輸出速度估計和彈跳檢測。表6報告了跨配置的速度預測誤差,圖3展示了在測試視頻78(第55行,A1B1C1E1F1)上的定性推理結果。只有同時具有多尺度解碼器(A=1)和噪聲瓶頸(B=1)的配置才能在所有三個尺度上實現低誤差;若無這些配置,112和224尺度的熱圖會崩潰至約 57 px 誤差,而56尺度的編碼器熱圖仍保持功能。
![]()
5 結論與討論
通過使用受控跟蹤任務和重復因子實驗設計(n = 4 次重復),我們研究了物理信息地標約束在多種架構選擇、監督級別和噪聲條件下對跟蹤性能的影響。總體而言,結果表明物理信息地標損失為將物理結構注入基于學習的跟蹤模型提供了一種有理論依據的機制,其中監督物理信息訓練(PILLS)在跨噪聲條件下始終產生最低或接近最低的測試跟蹤誤差。雖然硬 argmax (H) 是標準檢測方法,但在 B112 和 B224 處的雙線性插值預測——及其對應的物理優化輸出(P112 和 P224)——在若干情況下優于硬 argmax,這可能是由于改善了亞像素定位。在 B56 和 P56 處,較粗的空間分辨率導致性能相比 H56 有所下降。
盡管在此簡單設置下重建質量仍然有限,但本研究的主要目標是精確的地標跟蹤。除跟蹤外,所提出的物理信息地標框架可自然擴展至生成場景,因為該方法能夠生成視覺上合理且物理上一致的軌跡。物理信息方法的一個關鍵優勢在于,模型通過單次前向傳播不僅輸出優化后的位置,還輸出速度估計和彈跳檢測——這些物理狀態預測是標準基于熱圖的跟蹤方法所無法提供的。
局限性。當前實驗僅跟蹤單個粒子;具有交叉軌跡的多粒子跟蹤尚未解決,留待未來工作。所有實驗均使用合成數據,在真實視頻上的驗證仍是未來工作。該方法依賴于正確的物理先驗——如果假設的動力學(重力、彈跳模型)與真實系統不匹配,性能可能會下降。
原文鏈接:https://arxiv.org/pdf/2604.16895
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.