Distributionally Robust PAC-Bayesian Control
分布魯棒PAC-貝葉斯控制
https://arxiv.org/pdf/2604.10588
![]()
摘要
我們提出了一種分布魯棒的PAC貝葉斯框架,用于認證基于學習的有限時域控制器的性能。盡管現有的PAC-貝葉斯控制文獻通常假設有界損失以及訓練與部署分布相匹配,但我們明確針對無界損失和環境分布偏移(即仿真到現實的差距)進行了處理。我們通過結合兩條現代研究路線來實現這一目標,即PAC-貝葉斯泛化理論與基于1型Wasserstein距離的分布魯棒優化。通過利用系統級綜合(SLS)重參數化,我們推導出了一個次高斯損失代理項,以及一個因分布偏移導致的性能損失上界。這兩者都直接與閉環映射的算子范數相關聯。對于線性時不變系統,這產生了一個計算可行的基于優化的框架,并能夠為在與訓練所用環境不同的真實環境中部署提供高概率安全證書。
I 引言
將機器學習整合到控制理論中,為直接從有限、含噪的數據集中綜合控制策略提供了強大的工具。然而,基于學習的控制器以對分布偏移的脆弱性而聞名,因為它們通常假設用于訓練的數據生成分布與部署(測試)分布相匹配。這種差異,也被稱為仿真到現實的差距,當在標稱條件下訓練的控制器被部署到真實世界時,可能會顯著降低性能,在真實世界中,未建模的擾動可能表現為對抗性擾動。加劇該問題的是由有限訓練數據引起的有限樣本不確定性。
PAC-貝葉斯[1]框架已成為一種嚴格的方法,用于為隨機學習算法提供高概率的有限樣本泛化保證。利用PAC-貝葉斯技術,文獻[2]中的作者給出了深度神經網絡中第一個非平凡的(non-vacuous)泛化界,這是一項重大突破,也展示了PAC-貝葉斯方法的潛力。
研究人員也將PAC-貝葉斯方法應用于控制領域,例如在機器人學中需要泛化到未見環境的設置中[3]。在其擴展工作中,他們也處理了訓練與測試分布不匹配的情況,但僅使用了信息論中的f-散度度量,這實際上膨脹了復雜性項。除了假設損失存在硬性上限外,由于分布魯棒性帶來的懲罰只是一個簡單的加性常數項,該常數項不依賴于控制策略。最近,文獻[4]、[5]中的作者探索了非線性控制中的PAC-貝葉斯保證,他們通過采用內在穩定的參數化方式對底層系統進行參數化,以優化并認證所得性能。然而,如前所述,這些工作做出了訓練與部署環境中存在單一數據生成分布的標準假設,并考慮了有限損失。
分布魯棒(DR)優化[6]方法在控制領域[7]中有著更為顯著的存在,被用于模型預測控制[8]等眾多應用中。DR方法已成為對抗“優化者詛咒”[9]的主要途徑,這是一種與過擬合密切相關的現象。其主要思想是根據圍繞標稱分布[10]的模糊集(ambiguity set)中的最壞分布來優化系統性能。該標稱分布通常是通過抽取有限數量樣本構建的經驗分布。通過借助Wasserstein距離,文獻[11]中的作者提供了概率保證,即真實分布位于經驗分布的模糊集內。
在本工作中,我們將PAC-貝葉斯控制框架擴展以處理無界損失和分布偏移。事實上,我們提出了一種利用1-Wasserstein距離的分布魯棒PAC-貝葉斯控制框架。通過利用Kantorovich-Rubinstein對偶性[12],Wasserstein魯棒性懲罰明確地將泛化界與依賴于控制器的閉環系統Lipschitz常數聯系起來。該界使我們能夠在控制器設計階段使系統性能對分布偏移具有免疫力。事實上,我們的方法建立了一個魯棒的PAC-貝葉斯界,明確考慮了訓練與部署環境之間潛在的錯位。最后,我們通過系統級綜合(SLS)[13]將這一理論上的分布魯棒PAC-貝葉斯界轉化為適用于LTI系統的計算可行的算法。這相當于一種有效的重參數化,使我們能夠提供關于Lipschitz和次高斯代理項的具體界,這兩者在我們的框架中均依賴于控制器。我們現在準備總結我們的貢獻。
貢獻: 我們的主要貢獻有兩方面:首先,針對無界Lipschitz損失函數,我們引入了PAC-貝葉斯控制的Wasserstein分布魯棒擴展;其次,通過將框架專門化用于SLS形式的有限時域LTI控制,我們從相同的閉環映射中推導出了關于損失集中性和部署魯棒性的顯式依賴于控制器的證書(certificates)。這些證書導出了一個針對可行控制器的可處理后驗優化問題,以及相對于訓練分布的擾動偏移下的有限樣本保證,而該分布無需被辨識。
本文的其余部分組織如下:在第二節中,我們為讀者提供關于我們所考慮的動力系統、分布魯棒性的必要背景,并介紹PAC-貝葉斯框架。在第三節中,我們陳述關于Wasserstein 1型距離的分布魯棒PAC-貝葉斯控制的結果。接著,在第四節中,我們在SLS框架下重構該問題,并將我們的結果專門化應用于線性時不變(LTI)系統。基于控制器誘導的閉環映射,我們為次高斯集中性(sub-Gaussian concentration)和魯棒性懲罰項提供了有效的代理(proxies)。在第五節中,我們通過數值算例驗證我們的發現。
![]()
II. 問題表述
在本節中,我們介紹了我們方法所需的背景知識。我們的目標是為基于 PAC-Bayes 學習理論的學習控制器提供有限樣本保證,并解決學習到的控制器在訓練和部署(測試)環境之間的分布偏移問題。為此,我們在 II-A 節建立了一個抽象的學習控制問題。我們在 II-B 節介紹了概率論中必要的預備知識。在 II-C 節,我們討論分布魯棒性和 Wasserstein 距離。在 II-D 節,我們總結了文獻 [14] 中關于 PAC-Bayes 泛化的一個關鍵結果,我們要將其以分布魯棒的形式擴展到控制設置中。我們在 II-E 節提供了一個簡短的問題陳述。
A. 系統動力學與控制
![]()
![]()
![]()
在第四節中,我們將這一抽象設置特化應用于系統級綜合(SLS)形式的有限時域線性時不變(LTI)系統,其中樣本 Z Z 變為擾動軌跡,且 rollout 損失用于衡量加權閉環性能輸出。
B. 概率論
PAC-Bayes 界中的核心關注對象是次高斯隨機變量 [15]。
定義 1(次高斯隨機變量): 一個零均值隨機變量 X X 是次高斯的,如果
![]()
![]()
離散隨機變量的定義依此類推。在此我們還注意到,兩個高斯隨機向量之間的 KL 散度具有閉式解。
C. 分布魯棒性與 Wasserstein 距離
![]()
![]()
![]()
上述形式也常被稱為分布魯棒 [6] 優化。然而,在我們的情形中,Lipschitz 常數和次高斯方差代理(variance proxy)將不再是靜態對象,它們將依賴于后驗控制器分布。
D. PAC-貝葉斯學習理
![]()
大多數 PAC-貝葉斯結果在假設損失存在最大上限(maximum cap)的情況下,給出了泛化性能的界。這種設置在機器學習應用中很自然,因為損失通常是有界的(例如 0-1 分類損失)。將其轉化為控制問題可以通過將損失在某個最大值處飽和(saturating)來實現。然而,這帶來了諸如繁瑣的校準以及在接近上界區域不可避免地喪失靈敏度等問題。
也有針對無界次高斯損失 [17] 的結果,其中假設損失具有一個全局方差代理(global variance proxy)。然而,這通常不適用于動力系統的控制,因為對最壞情況損失進行界定意味著該界是由控制器集合中最差的可能控制器內在決定的。
出于這個原因,我們采用了針對假設依賴的次高斯損失(hypothesis dependent sub-Gaussian losses)[14] 的最新結果。在此,我們簡要指出,文獻 [14] 中的方法在優化方面還有其他相關含義,但這超出了本文的范圍。用控制領域的術語來說,假設對應于一個控制器。其含義是,集中界(concentration bound)取決于所部署控制器的(期望)性能。由于我們要優化控制器的性能,這兩個目標是一致的。我們陳述適用于我們設置的定理。
![]()
![]()
注意,我們從用于訓練的分布 D D 中采樣,并在假設現實世界中的數據生成分布與訓練分布相同的前提下提供部署保證。這通常是一個不切實際的假設,我們將在第三節中解決這一特定問題。
E. 問題陳述
在本文中,我們要解決的問題是:確保在一個具有未知數據生成分布的有限樣本訓練環境中訓練出的控制系統,在存在分布偏移的情況下,能夠在部署環境中轉化為可預測的性能。特別是,我們要將定理 1 擴展到部署生成分布與訓練分布不同的情況。
III. 分布魯棒 PAC-Bayes
在本節中,我們將定理 1 中的標稱 PAC-Bayes 界與 Wasserstein 魯棒化相結合。我們在第四節中將由此得到的保證專門化應用于有限時域 SLS 控制。
不同于標準的 PAC-Bayes,我們的目標是提供期望分布魯棒總體(DROP)風險的高概率上界,我們將其定義為:
![]()
![]()
A. 基于 Wasserstein 距離的分布魯棒 PAC-貝葉斯
![]()
![]()
![]()
![]()
![]()
注意,Wasserstein DROP 風險是圍繞訓練(未知)分布為中心的。魯棒性懲罰項 L ( K ) ρ 現在明確地與每個單獨控制器的幾何靈敏度相關聯。因此,最小化該界需要一種算法來主動優化經驗魯棒風險,從而偏好那些具有較小(期望)Lipschitz 常數的模型,這些模型能在未見環境中產生更好的泛化界。
IV. 系統級綜合與可處理的后驗優化
我們現在將 II-A 節中的抽象設置特化應用于有限時域線性時不變(LTI)系統。控制器 K ∈ K 現在是一個有限時域線性因果控制器,而樣本 Z ∈ Z 是一條擾動軌跡。此外,我們利用系統級綜合(SLS)[13] 框架,根據從擾動到狀態-控制軌跡的閉環映射,獲得顯式的次高斯代理項和 Wasserstein Lipschitz 界。
A. 有限時域 LTI 特化
考慮一個受加性擾動影響的線性時不變(LTI)離散時間動力系統
![]()
![]()
![]()
![]()
![]()
B. 有限時域提升的 SLS 響應
考慮由 (12) 定義的離散時間 LTI 系統。 定義堆疊向量
![]()
注意,為了簡化符號表示,我們將初始狀態包含在 w w 中。對于有限時域控制器,堆疊的狀態和輸入軌跡是堆疊擾動向量的確定性線性映射:
![]()
關于這些等式的更多細節和推導,讀者可參考[13]。
C. 子空間參數化
為了獲得用于PAC-貝葉斯的有限維假設空間,我們將提升的閉環響應矩陣進行向量化。令:
![]()
![]()
![]()
![]()
![]()
我們現在針對兩種有用的擾動模型驗證定理 2 的條件:高斯擾動軌跡和幾乎必然有界的擾動軌跡。再次注意,D 是擾動軌跡的訓練分布。
D. 依賴于控制器的集中性與魯棒性證書
我們首先從一個關于高斯軌跡的命題開始。
命題 1(高斯軌跡擾動): 假設:
![]()
![]()
![]()
![]()
E. SLS 形式的魯棒 PAC-Bayes 目標
將定理 2 給出的 PAC-Bayes 平方根界與 SLS 假設 θ 相結合,得出了關于后驗 Q 的最終學習算法。利用由 (20) 或 (21) 給出的顯式代理 σ ( θ ) ,我們將后驗優化問題表述為
![]()
![]()
V. 數值算例
在下文中,我們使用 Julia [22] 來實現數值算例,并使用 Zygote [23] 作為自動微分后端。優化問題是在 JuMP [24] 中建模的。
A. 雙積分器
我們考慮針對離散時間線性系統 (12) 的一個有限時域控制問題,其中
![]()
![]()
![]()
![]()
觀察圖 1,我們可以看到,正如預期的那樣,PAC-Bayes 復雜性項隨著數據的增加而減小。然而,優化過程仍然必須平衡來自 Wasserstein 懲罰項和經驗風險的貢獻,這兩者都是在同一個后驗分布上取平均的。
圖2展示了我們的方法在存在分布偏移時的有效性。我們可以觀察到,原始(vanilla)PAC-Bayes(即不包含Wasserstein部分的PAC-Bayes項)無法妥善應對環境偏移。從圖中可以清楚地看到,對于所有數據集大小 n n,報告的界均被違反。另一方面,我們的魯棒化方法為實際經驗風險提供了正確的上界。我們還指出,我們的方法在分布偏移的測試數據上表現優于原始方法。兩種方法均在相同的對抗性分布偏移下進行了測試。需要注意的是,所選的分布偏移被設置為在移動訓練數據分布均值的同時,仍保持在認證半徑之內。
VI.結論與未來工作
在本工作中,我們將 PAC-貝葉斯泛化分析與 Wasserstein 分布魯棒性相結合,并將所得框架特化應用于 SLS 形式的有限時域 LTI 控制。主要成果是一個顯式且可計算的界,其中集中性和魯棒性均通過加權閉環映射的算子范數進行認證。這為在擾動分布偏移下的隨機可行控制器提供了有限樣本保證。對于未來工作,我們設想將此方法擴展到模型不確定性、次指數損失(如平方范數代價),以及基于學習的魯棒模型預測控制。
原文鏈接:https://arxiv.org/pdf/2604.10588
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.