Dynamic Treatment on Networks
網絡的動態處理
https://arxiv.org/pdf/2605.06564
《Dynamic Treatment on Networks》論文重點概述
在網絡環境中,有效的動態干預分配不僅需決定對誰干預(whom),還需決定何時干預(when),以通過網絡溢出效應放大政策影響。早期對高連接度節點的干預可能觸發傳播級聯,從而改變后續周期值得定向的目標節點。現有網絡干擾下的干預策略多為靜態,而動態干預框架通常忽略網絡結構,本文旨在整合這兩個視角。
方法論:Q-Ising 三階段框架
論文提出Q-Ising方法,包含三個核心階段:
- 動態伊辛模型推斷(Stage 1)
- 采用貝葉斯動態伊辛模型(Bayesian dynamic Ising model),從單一觀測面板數據估計網絡采納動態
- 模型允許非對稱交互和時序依賴,避免傳統平衡態伊辛模型中難處理的配分函數問題
- 通過連續尖峰-平板先驗(spike-and-slab prior)實現交互參數稀疏性,支持不確定性量化
- 狀態構建與增強(Stage 2)
- 將估計的條件采納概率作為潛在狀態,構建低維的Q-Ising狀態表示
- 狀態包含兩部分:前向模型驅動的"無干預采納概率"與后向觀測驅動的"歷史采納概況"
- 在"箱"(bin)級別聚合節點信息,平衡統計覆蓋度與目標粒度
- 離線強化學習策略學習(Stage 3)
- 采用保守Q學習(Conservative Q-Learning, CQL)從歷史數據中學習動態箱級策略
- 通過后驗采樣構建集成策略,實現決策不確定性量化
- 支持可解釋的溢出效應估計與置信評估
- 為有限樣本下的Q-Ising方法提供遺憾上界(regret upper bound),該界可分解為三部分:
- 標準離線強化學習的不確定性
- 網絡抽象誤差(聚合與分箱引入)
- 第一階段伊辛狀態估計誤差
- 證明貪心策略(僅最大化即時獎勵)在網絡動態下不一定最優,凸顯動態規劃的必要性
- 合成數據:在隨機塊模型(SBM)上模擬異質SIS(Susceptible-Infected-Susceptible)傳播動態
- 設計對抗性場景:高影響力節點聚集于小社區,無法僅憑度中心性識別
- Q-Ising能從離線數據中識別高影響力群體,并隨有機傳播自持性自適應調整干預預算
- 真實數據:印度卡納塔克邦村莊小額信貸網絡(Banerjee et al., 2013)
- 在實證鄰接矩陣上模擬SIS動態
- 結果:在夏普比率等指標上優于靜態中心性基準方法
優勢:
- 首次將貝葉斯動態網絡建模與離線強化學習統一,解決"單軌跡、無實驗"的現實約束
- 提供可解釋的參數估計(直接效應、持久性、鄰居溢出、跨箱影響)
- 通過后驗集成實現決策不確定性量化,支持審慎策略部署
局限:
- 計算復雜度較高(高斯過程擬合成本為

- 方法略偏向探索,可通過增加利用階段子迭代次數緩解
- 當前聚焦二值結果與單干預設定,多目標、連續干預等擴展留待未來工作
在網絡干擾下,時序策略與目標選擇同等重要。Q-Ising通過"模型推斷→狀態抽象→策略學習"的三階段設計,在有限觀測數據下實現動態、自適應、可解釋的網絡干預,為公共健康、營銷推廣、平臺運營等領域的序列化決策提供了新范式。
![]()
![]()
摘要
在網絡中,有效的動態干預分配不僅需要決定對誰進行干預,還需要決定何時干預,以便通過溢出效應放大政策影響。在連接良好的節點上進行早期干預可觸發級聯反應,從而改變下一周期值得定向的目標節點。現有的網絡干擾下的干預策略大多是靜態的,而動態干預框架通常完全忽略網絡結構。我們整合了這兩種視角,提出 Q-Ising 方法,這是一個三階段流程:(i) 通過貝葉斯動態伊辛模型從單一觀測面板數據估計網絡采納動態;(ii) 用連續的后驗潛在狀態增強干預采納歷史;(iii) 通過離線強化學習學習動態策略。貝葉斯機制實現了對動態決策的不確定性量化,生成了具有可解釋溢出估計的后驗集成策略。我們提供了一個有限樣本遺憾上界,該上界可分解為標準離線強化學習不確定性、網絡抽象誤差以及伊辛狀態估計的第一階段誤差。我們將該方法應用于印度村莊小額信貸網絡數據,以及在模擬異質易感-感染-易感(SIS)動態下的合成隨機塊模型,并證明自適應定向策略優于靜態中心性基準。
1 引言
當決策者在網絡上制定動態干預策略時,核心問題不僅是對誰進行干預,還包括何時干預。在網絡干擾下,單元接受干預的順序決定了哪些節點將首先傳播溢出效應,以及這些效應將如何隨時間累積放大。一項選擇了正確干預節點但忽略其順序的策略,其表現可能嚴格劣于進行戰略性排序的策略。
為了理解順序為何重要,請考慮一個在社交網絡上推廣產品的營銷活動,其有限預算被分配在多個周期中。如果決策者首先干預有影響力的用戶,第二周期的行動就會改變:決策者現在可以定向那些已暴露但尚未采納的鄰居,或者可以在網絡的其他區域重新開始布局。第二周期的最優行動取決于第一周期所取得的成果。類似的排序問題也出現在病毒式營銷 [Kempe et al., 2003, Domingos and Richardson, 2001]、平臺用戶參與活動以及公共衛生干預 [Bubar et al., 2021, Buckner et al., 2021] 中。
該設定中的核心困難在于,決策者無法進行受控實驗,且僅限于在歷史策略下的一條單一觀測軌跡。這排除了需要能夠直接訪問(oracle access)擴散機制的在線影響力最大化(IM)[Kempe et al., 2003] 算法 [Singh et al., 2022]。同時,由于動態決策的特性,靜態策略通常并非最優。為解決此問題,決策者需要兩樣東西:首先,一個描述網絡行為演化的自適應模型;其次,一種利用該模型按順序選擇干預措施的方法。
對于第一部分,我們使用動態伊辛模型 [Yang, 1992]。該模型旨在根據節點自身、其鄰居及過去干預的當前狀態,估計每個節點下一狀態的條件概率。與需要難以處理的配分函數的平衡態伊辛模型不同,動態公式允許使用易于處理的逐節點似然函數。對于第二部分,我們使用離線強化學習(RL),這是一種從歷史數據中學習動態決策規則的方法,無需進行實驗 [Levine et al., 2020]。作為一項關鍵貢獻,我們將估計的條件概率視為離線強化學習的潛在狀態。最后,為了評估這些動態決策的不確定性,我們提供了一個用于不確定性量化的集成框架。這一三階段過程為網絡干擾下的動態策略提供了一個統一框架。
相關工作跨越多個領域。一些方法為單周期干預學習福利最大化策略 [Kitagawa and Tetenov, 2018, Viviano, 2025],以及基于中心性和友誼悖論等網絡拓撲結構的網絡感知定向方法 [Banerjee et al., 2013, Kempe et al., 2003, Christakis and Fowler, 2010, Kim et al., 2015, Chen et al., 2009, Liu et al., 2017]。動態治療方案方法 [Murphy et al., 2001, Chakraborty and Murphy, 2014, Hu et al., 2025, Adusumilli et al., 2019, Kitagawa et al., 2022] 為動態決策提供了工具,但未利用網絡結構。Restless 多臂老虎機為預算約束下的動態策略提供了框架 [Whittle, 1988, Weber and Weiss, 1990, Mate et al., 2020],但假設單元獨立演化。最近的擴展將臂嵌入網絡中,允許干預使其鄰居受益 [Herlihy and Dickerson, 2023, Ou et al., 2022, Vaswani et al., 2015, Gleich et al., 2025],但這些方法假設溢出機制已知或需要重復實驗。類似地,一些工作需要納什均衡和已知動態 [Kitagawa and Wang, 2023a]。最近的圖神經網絡(GNN)方法取得了較強的實證性能,但也需要在線實驗或已知動態 [Manchanda et al., 2020, Sun et al., 2018, Meirom et al., 2021, Feng et al., 2024]。附錄 A 的表 1 提供了其中一些方法的對比。
![]()
我們提出 Q-Ising 方法,將貝葉斯動態伊辛推斷與離線強化學習相結合,用于網絡干擾下的序列決策。在方法論上,我們通過將估計的網絡動態視為潛在狀態,將網絡干擾下策略學習的難題轉化為標準的離線強化學習問題。在理論上,我們給出了悲觀型離線學習下有限時間視界(finite-horizon)Q-Ising 的遺憾上界,并表明該上界可分解為標準離線強化學習不確定性、網絡抽象誤差和第一階段誤差。
我們在兩種實驗設定下將 Q-Ising 應用于易感-感染-易感(SIS)動態 [Kermack and McKendrick, 1927, Hethcote, 2000],這是一種廣泛使用的復發性傳染模型 [Bass, 1969, Jackson and Rogers, 2007, Bohner and Streipert, 2016]。其一為隨機塊模型(SBM),其中最具影響力的節點構成一個較小的社區,僅憑節點度無法將其識別出來,這使得該設定對基于中心性的方法構成了挑戰。在該設定中,Q-Ising 僅憑離線數據即可識別出高影響力群體,并隨著自發傳播達到自我維持狀態而自適應地調整干預預算。其二,我們在來自印度卡納塔克邦的真實小額信貸網絡 [Banerjee et al., 2013] 上驗證了 Q-Ising 的實際價值,并在實證鄰接矩陣上模擬了 SIS 動態。在這兩種設定下,Q-Ising 的表現均達到或優于最佳基線方法,提供可解釋的系數估計以揭示底層動態機制,并量化了在每個決策點上推薦干預措施的不確定性。基于圖神經網絡(GNN)的影響力最大化方法均不具備上述特性 [Manchanda et al., 2020, Sun et al., 2018, Meirom et al., 2021, Feng et al., 2024]。
本文其余部分結構如下:首先,在第 2 節中正式定義問題。接著,在第 3 節介紹我們的方法論。在第 4 節中,我們給出推導悲觀型次優性所需的假設,并呈現遺憾上界。最后,在第 5 節進行實驗驗證。
2 框架與問題表述
我們研究固定網絡上具有二元結果的動態干預問題。全文中,表示節點 i 在時期 t 采納了某種產品或行為;已采納的單元后續可能會退出,因此決策者不僅必須決定對誰進行干預,還必須決定何時干預。
![]()
這是在歷史策略下收集的。這是來自一個真實網絡的單一長面板這一具有重要實踐意義的設定,其中 M 和 X 全程固定且已知。我們保留節點級行動,因為第一階段估計直接干預和鄰居溢出效應。
![]()
![]()
![]()
3 方法論
Q-Ising 方法分三個階段進行。首先,我們從面板數據 D D 估計一個動態伊辛模型。其次,我們使用擬合好的模型構建低維的 Q-Ising 狀態。第三,我們應用離線強化學習(RL)在這些狀態上學習一個動態的箱級策略。
3.1 第一階段:動態伊辛推斷
標準的平衡態伊辛模型需要計算難以處理的配分函數并要求對稱的相互作用。我們轉而使用一個動態條件模型,類似于伊辛模型的邏輯偽似然估計 [Ravikumar et al., 2010],該模型允許非對稱影響和時間依賴性。定義在時間 t t 位于箱 B k 中的節點 i i 的線性預測因子:
![]()
![]()
![]()
先驗與稀疏性。 對于交互參數,我們施加一種連續的尖峰-平板先驗,以促進同輩效應中的稀疏性 [Ro?ková and George, 2014, George and McCulloch, 1993]:
![]()
![]()
![]()
![]()
![]()
第一個分量是前瞻性的且基于模型;第二個分量是當前決策之前已實現的箱級采納概況。
3.2 第二階段:離線 Q 學習
![]()
![]()
![]()
![]()
![]()
![]()
3.3 第三階段:通過后驗采樣的集成策略與不確定性量化
![]()
4 理論
我們為 Q-Ising 的一種理想化有限視界 PEVI(悲觀價值迭代)版本提供了有限樣本遺憾保證。第 3.2 節中的經驗算法采用 CQL 作為同一悲觀主義原則的可擴展實現;以下定理分析了該 PEVI 對應算法 [Jin et al., 2021]。
![]()
![]()
![]()
![]()
![]()
5 實驗
我們在兩種網絡機制下評估 Q-Ising:5.1 小節中的隨機塊模型(SBM)以及 5.2 小節中來自印度卡納塔克邦 [Banerjee et al., 2013] 的小額信貸網絡。在這兩種情況下,我們都基于異質的、合成的 SIS(易感 - 感染 - 易感)動態模擬觀測數據。這些動態的設計旨在對基于度數的方法構成挑戰(adversarial)。最優策略要求盡早干預高度易感節點所在的社區,從而引發自然的組內傳播,然后在飽和消除高度易感組中進一步干預的邊際收益之前,將資源重新分配到其他社區。一個按度數對節點排序的排名器會將其預算集中在中心節點上,但這些節點未必是易感節點。無論是“干預誰”還是“何時干預”,僅憑度數統計量都無法復原,這需要自適應決策。
![]()
5.1 隨機塊模型中的實驗
![]()
![]()
在該設置中,隨機策略優于大多數拓撲啟發式方法,因為它偶爾會碰巧向高度易感的區塊進行播種。因此,與確定性承諾于錯誤目標的方法相比,它更頻繁地匹配到正確的目標。Plain DQN 學習到的種子優先排序與 Q-Ising 在定性上相似,但初始上升速度較慢。這表明伊辛增強在早期活動窗口期最具價值,此外還能提供后驗集成策略、可解釋的參數和不確定性量化。
5.2 印度小額信貸村莊中的實驗
![]()
附錄 A 中的表 2 報告了結果。Q-Ising 相較于最佳非自適應策略(即 Degree-bin)的性能提升的描述性圖表可在圖 1 中找到。Q-Ising 有效地學會了將其初始干預集中在具有高傳播率的社區以及與其他社區連接良好的社區上,從而產生疊加的自然傳播。然后,它根據活動水平自適應地干預其他社區。在模塊度較低的村莊中,其性能提升更為顯著,因為 Q-Ising 依賴于識別有影響力的社區并自適應地定向剩余社區。在高度模塊化的網絡中,溢出效應疊加較少,削弱了 Q-Ising 的優勢。
![]()
![]()
借助集成策略方法,Q-Ising 還能學習策略的不確定性。參數估計(500 次迭代)大約需要 1 分鐘的掛鐘時間。對應 20 個后驗抽樣的 20 個智能體的訓練大約需要 20 分鐘。通常,多數投票路徑始于對高傳播率社區的近乎一致認同。在傳播者社區基本飽和后,多數票轉向多個替代選項。這種分散性識別了接近臨界閾值的時期,并作為一種戰略性不確定性的度量,而點估計策略往往會無形中掩蓋這種不確定性。展示示例村莊集成策略軌跡的圖表可在附錄 B 中找到。
![]()
6 結論
本文提出了 Q-Ising,這是一個基于觀測面板數據、在網絡干擾下進行動態干預分配的框架。這是網絡中離線動態策略學習的首批嘗試之一,盡管該方法對于公共衛生、小額信貸以及其他實驗成本高昂或不可行的場景具有重要的現實意義。我們的方法將網絡動態的貝葉斯伊辛模型與保守 Q 學習相結合,所得策略不僅包含結構參數估計和后驗不確定性,而且在性能上能與無模型離線強化學習相媲美。
該框架還有許多可改進之處。目前該框架每個時期僅對單個節點進行干預(播種);多節點預算擴展是未來的開放研究方向。該方法還需要足夠長的觀測面板數據以實現充分的狀態 - 動作覆蓋,且當行為策略與目標策略之間存在嚴重的分布偏移時,其行為表現需要進一步研究。對于結合網絡信息的狀態增強,當數據充足時,可以使用高階伊辛相互作用或其他網絡表示形式(例如圖神經網絡)。我們的實驗在 SIS(易感 - 感染 - 易感)動態上展示了該框架,但該流程也適用于其他采用同步更新的傳染模型。其積極的應用場景包括公共衛生干預、小額信貸推廣以及低資源環境下的信息宣傳活動。同樣的框架也可被用于利用社會影響力以達到商業或政治目的,我們要鼓勵從業者據此反思其部署背景。
![]()
![]()
![]()
原文鏈接:https://arxiv.org/pdf/2605.06564
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.