![]()
這項由華南理工大學計算機科學與工程學院領導的研究,于2026年5月以預印本形式發布在arXiv平臺,論文編號為arXiv:2605.00691v1,研究方向歸屬于多智能體系統領域(cs.MA)。有興趣深入了解的讀者可以通過該編號在arXiv查詢完整論文。
**一道難題:許多"小偵探"共同破案,卻只能看到自己那片區域**
假設你是一個偵探團隊的成員,這個團隊有二十個偵探,分別駐守城市的不同角落。你們共同的任務是找到一個隱藏在城市某處的重要線索——但每個偵探只能看到自己那片區域,無法看到其他偵探的地盤,也無法知道全城的整體情況。你們之間唯一的溝通方式,是偶爾和相鄰街區的同事傳遞簡短的消息。在這種情況下,怎樣才能讓整個團隊最終"達成共識",找到最好的答案?
這個偵探團隊的故事,正是現代分布式系統中一個真實存在的技術難題的縮影。在無線傳感網絡、自動駕駛車隊、工廠機器人群組等場景里,許多"智能體"(可以理解為獨立運作的AI小單元)需要共同優化一個全局目標,但每個智能體只能訪問自己的局部信息,只能和鄰居交流,完全無法看到全局。這類問題在學術上被稱為"分布式黑盒共識優化"——"黑盒"意味著連目標函數長什么樣都不知道,只能靠反復試錯來感知好壞;"共識"則意味著所有智能體最終必須在同一個答案上達成一致。
過去的方法大多依賴人工設計的固定規則——就像給每個偵探發一本死板的操作手冊,規定他們在什么情況下怎么行動,和哪個同事分享多少信息。這類手冊的問題在于:真實的破案現場千變萬化,固定規則往往顧此失彼,要么偵探們各自為戰、遲遲無法統一意見,要么過于保守、錯過了關鍵線索。
華南理工大學的研究團隊針對這一痛點,提出了一個名為 **LAC-MAS**(Learning to Act and Cooperate for Multi-Agent Systems,學會行動與合作的多智能體系統)的全新框架。這套框架的核心思想是:不再給偵探們發固定手冊,而是讓他們能夠根據自己的歷史經驗,動態調整自己的偵查策略和與同事合作的方式。更妙的是,框架中引入了大語言模型(可以理解為一位經驗豐富的"顧問"),偶爾幫偵探們回顧歷史記錄、提出策略建議——但這位顧問不會直接替偵探做決定,只是給出高層次的指引。
**一、偵探團隊面對的三重困境**
理解這項研究的價值,需要先弄清楚分布式黑盒優化到底難在哪里。
難點之一,是信息的極度不完整。每個智能體既看不到全局目標,也無法訪問其他智能體的狀態,只能通過函數查詢感知自己局部區域的"好壞"。這就像每個偵探只能在自己的街區找線索,永遠不知道城市另一頭發生了什么。
難點之二,是探索與收斂之間的矛盾。每個智能體需要在"廣泛探索未知區域"和"向當前最好位置靠攏"之間保持平衡。探索太多,會浪費大量資源;收斂太快,則容易陷入局部最優——就像偵探過早斷定"兇手就是鄰居大叔",反而錯過了真正的線索。
難點之三,是共識的達成需要有效協作。即便每個智能體局部表現很好,如果大家無法最終統一到同一個答案,整個系統的目標就無法實現。而協作的質量取決于智能體如何利用鄰居的信息——盲目地把所有鄰居的信息平均對待,往往不如有所側重、優先參考那些表現更好的鄰居。
現有的經典方法,比如EXTRA、ADMM,依賴明確的梯度信息,對黑盒場景無能為力。強化學習方法雖然靈活,但在多智能體場景中訓練不穩定、可擴展性差。粒子群算法等啟發式方法更接地氣,但依賴人工設計的更新規則,缺乏自適應能力。LAC-MAS的出現,正是為了在這三重困境中找到一條更好的出路。
**二、粒子群:每位偵探手下的"搜查小隊"**
在正式介紹LAC-MAS的核心機制之前,需要理解它的底層執行單元——粒子群優化器。
每個智能體并不是一個單獨的偵探,而是帶領著一支由若干"搜查員"(粒子)組成的小隊。每個搜查員在解空間中占據一個位置,代表一個候選解,并且根據一定的速度在空間中移動。小隊集體探索解空間,通過不斷嘗試不同位置來感知目標函數的好壞。
研究團隊對傳統粒子群優化做了一項關鍵改進:引入了基于"粒子分散程度"的自適應內部機制。可以這樣理解:如果搜查小隊的成員們四散分布、相距很遠(高分散),說明整個小隊還處于廣泛探索階段;如果成員們聚集在一起(低分散),說明大家已經開始向某個區域收斂。
基于這個判斷,智能體會自動選擇不同的行為系數。當分散程度高時,用一個對應"探索模式"的系數來驅動搜查員大膽游走;當分散程度低時,換成"收斂模式"的系數讓大家穩定地向好位置靠攏;而居于兩者之間的中等分散狀態,則對應一個平衡系數。每個智能體維護著三個系數構成的小集合,在運行過程中動態選擇當前應該激活哪一個。
這個機制的數學表達相當直接:研究團隊定義了粒子質心(所有搜查員位置的平均值)和粒子散度(所有搜查員到質心距離的平均平方),然后根據散度是否超過兩個閾值來決定使用哪個系數。選定的系數作為一個縮放因子,乘以搜查員的速度更新量,控制整體移動幅度的大小。
這已經是比傳統固定參數粒子群好得多的設計——但如果這三個系數本身是人工固定設置的,整個機制依然是"規則驅動"的。LAC-MAS的妙處在于,它更進一步:讓大語言模型根據歷史優化軌跡來動態推斷這三個系數應該是多少,讓"行為策略"本身也能從經驗中學習。
**三、給每位偵探配一位"顧問":大語言模型的角色**
在LAC-MAS中,每個智能體都配備了一個大語言模型作為高層次指導模塊。這位"顧問"的工作方式與直覺中的AI截然不同——它并不直接控制搜查員的移動,不輸出具體的坐標或數值,而是扮演一個策略顧問的角色:根據近期的優化歷史,給出兩類建議。
第一類建議是"學會行動",即調整智能體的內部行為策略。顧問會查看智能體最近若干輪的適應度值(目標函數值,越低越好)和共識差異度(所有智能體之間的分歧大小),結合一套規則——如果適應度停滯不前而共識差異已經很小,說明大家鎖定到了某個局部區域,應該加大探索力度;如果適應度在緩慢改善但共識差異還很大,說明各智能體還比較分散,應該加強向中心靠攏的力度——從而推斷出合適的參數值,更新那三個行為系數。
這個過程的本質,是將"歷史軌跡"轉化為"參數調整建議"。大語言模型通過自然語言提示詞接收結構化的軌跡數據,輸出更新后的參數值,然后由系統進行合理性檢查(確保值在設定范圍內)并投入使用。
第二類建議是"學會合作",即調整智能體在共識融合階段如何對待鄰居的信息。在分布式系統中,每個智能體最終需要將自己的狀態和鄰居的狀態加權平均,以推動全局共識的形成。傳統做法是對所有鄰居一視同仁,賦予均等權重。但有些鄰居可能優化做得很好、分散程度低、進展穩定,參考價值更高;另一些鄰居可能正陷于局部困境,過度參考反而會拖累自己。
為了解決這個問題,每個智能體會構建一個"鄰居描述符",對每位鄰居的近期表現進行總結,包含三項指標:近期平均適應度、近期平均粒子散度、近期平均狀態變化幅度。這三項指標分別反映鄰居的解質量、探索狀態和搜索活躍程度。大語言模型根據這些描述符,為每位鄰居打分,輸出一組候選權重;系統對這組權重進行歸一化處理,確保權重非負且總和為1,然后用于加權共識更新。
值得強調的是,整個合作機制并不改變智能體之間的通信拓撲——誰和誰相連還是固定不變的,改變的只是現有連接的"信息權重"。就像偵探團隊的編制沒變,但每個偵探學會了更多地參考那些線索質量更高的同事,而不是平等對待所有人的匯報。
**四、顧問何時出手:分階段認知調度的精妙設計**
如果顧問每一輪都來打擾,既浪費計算資源,也會導致策略頻繁抖動、難以穩定。而且,"學會行動"和"學會合作"這兩類指導在不同階段發揮的作用不同:前者主要在優化早期和中期、搜索模式發生大轉變的時候才需要更新;后者則需要隨著鄰居相對表現的變化而持續調整。
研究團隊為此設計了一套"分階段認知調度"機制(Phased Cognitive Guidance,PCG),相當于為整個優化過程規劃了一個時間表,規定顧問在什么時候提供什么類型的建議。
整個過程被劃分為四個自然浮現的階段。第一階段是軌跡積累期,所有偵探先按照基礎策略自由行動,積累足夠的歷史數據,為后續的學習打好基礎,顧問此時保持沉默。第二階段是行動學習期,顧問開始介入,根據積累的軌跡為各智能體調整內部行為系數,優化各自的搜索模式,但合作權重暫時不動。第三階段是行動與合作聯合優化期,兩類指導同時激活,智能體既調整內部搜索策略,也重新評估與鄰居的合作關系,這是整個系統最動態的階段。第四階段是共識導向的穩定期,內部行為調整被關閉,只保留合作權重的持續更新,讓系統在穩健的協作基礎上平穩地推進共識收斂,避免晚期因內部擾動過大而破壞穩定性。
為了確定這四個階段的時間節點,研究團隊采用了一種"預實驗標定"的方法:在正式運行前先做一個輕量級的預熱實驗,估算出一個特征優化時長T作為時間參考基準,然后用若干比例參數來劃定各階段的邊界。這個T不需要精確預測收斂時間,只要數量級大致合理即可。
合作權重的刷新時間點被設計為均勻間隔分布(例如每隔一定比例的T就刷新一次),而行動指導的刷新則只在兩個關鍵時刻觸發(大約在T的某兩個比例點上),一旦超過T就完全停止行動指導的更新。這種"外頻內稀"的非對稱設計,精準地匹配了兩類指導的不同功能需求。
**五、理論保障:這套機制真的能收斂嗎?**
對于優化算法來說,能不能最終讓所有智能體達成共識,是一個必須回答的理論問題。研究團隊對LAC-MAS的共識保證進行了嚴格的數學分析。
整個分析的核心思路是:把LAC-MAS的協作更新寫成一個矩陣迭代的形式——下一時刻的系統狀態等于當前時刻的狀態乘以一個混合矩陣,再加上一個擾動項。如果這個混合矩陣滿足"行隨機矩陣"的條件(每行元素非負且求和為1,且與通信圖結構相容),并且擾動項隨時間趨近于零,那么經典的共識理論就能保證系統最終收斂。
研究團隊逐一驗證了LAC-MAS滿足這些條件。關于混合矩陣的條件:由于合作權重在執行前都經過了歸一化處理,加上大語言模型只在現有通信鏈路內分配權重,混合矩陣始終是行隨機且與連通圖相容的。關于內部擾動的有界性:行為系數來自一個有限的集合,因此有界;在分階段調度下,行為指導的刷新次數有限,不會產生持續的高頻切換。關于擾動項的漸近消失:在最終階段行為調整停止后,系統進入穩定的執行狀態,局部搜索引入的擾動會隨著粒子群自然收斂而趨近于零。
基于這三點,整個系統構成了一個在連通圖上運行的"行隨機切換共識系統,帶有漸近消失的擾動",標準的共識定理可以直接應用,從而保證了所有智能體的狀態差異最終趨近于零。
**六、實驗驗證:偵探團隊在標準考場和真實案件中的表現**
理論再完美,也需要實驗來檢驗。研究團隊在兩類場景下對LAC-MAS進行了全面評估。
標準基準測試方面,研究團隊使用了10個經典的分布式黑盒優化測試函數(F1至F10),這些函數覆蓋了從簡單的單峰景觀到復雜的多峰、異構、非可分函數等多種難度類型,全部以100維決策變量、20個智能體的規模運行,嚴格遵守"每個智能體只能查詢自己的局部目標,全局目標在優化過程中不可見"的協議。每種算法獨立運行25次,用Friedman檢驗和Nemenyi事后檢驗進行統計顯著性分析。
參與對比的方法包括:MASOIE(與LAC-MAS最相近的先進基線,也是"首席競爭對手")、GFPDO(采用顯式共識機制但通信開銷較大的方法)、RGF(隨機梯度無關方法)和DA-PSO(分布式粒子群算法)。
實驗結果顯示,LAC-MAS在大多數測試函數上都能取得比MASOIE更低的最終適應度值。在那些需要靈活調節探索與收斂節奏的函數(如F1、F5、F8、F10)上,LAC-MAS對MASOIE的優勢尤為明顯,統計顯著性達到了α=0.01的水平。在少數具有特殊景觀結構的函數(如F3、F6)上,LAC-MAS和MASOIE的差異不顯著,但兩者都大幅領先其他基線方法,說明LAC-MAS在這類函數上至少保持了最優水平而沒有退步。
對GFPDO、RGF、DA-PSO這三種更早期的基線,LAC-MAS幾乎在所有10個函數上都取得了統計顯著的優勢,差距往往在數量級以上。
消融實驗方面,研究團隊設計了四種變體來拆解LAC-MAS的各個組件貢獻。單獨啟用行動學習(LAC-MAS-Act)但保留固定合作權重,或單獨啟用合作學習(LAC-MAS-Coop)但保留固定行為系數,都能比純粹的MASOIE基線有所改善,但兩者各有側重。LAC-MAS-Act變體在最終解的質量上提升明顯,但代價是通信成本略微增加,因為更活躍的探索行為會延緩共識的形成;LAC-MAS-Coop變體則在降低通信成本和加速共識達成上表現突出,但最終解的質量提升有限。完整的LAC-MAS綜合了兩者的優點,在解的質量、共識速度和通信效率上都達到了最好或接近最好的平衡。
真實應用場景方面,研究團隊將LAC-MAS遷移到了無線傳感網絡(WSN)中的多目標定位任務上。這個任務的設定是:已知位置的若干傳感器,需要聯合估計多個位置未知的目標的三維坐標,每個傳感器只能觀測到自己收到的信號強度,通信有限。全局目標函數是所有傳感器的定位誤差之和,但任何單個傳感器都無法訪問這個全局值。這個場景對LAC-MAS來說是一次真正的"遷移測試",因為研究團隊并沒有針對WSN任務做任何專門的重新設計或參數調優。
實驗結果令人印象深刻:在目標數量從10個增加到50個的全過程中,LAC-MAS始終保持了遠低于其他方法的估計誤差。當目標數量為10時,LAC-MAS的估計誤差約為0.07,而MASOIE約為0.24,GFPDO為3.61,RGF為17.92,DA-PSO則高達60.49。隨著目標數量增加,所有方法的誤差都有所上升,但LAC-MAS的增長幅度最小、保持的優勢也最穩定。這說明LAC-MAS所學到的行動與合作策略具有良好的泛化能力,能夠在新的分布式黑盒任務場景中保持有效。
**七、顧問是怎么"說話"的:提示詞設計揭秘**
了解大語言模型如何在LAC-MAS中工作,需要看一看它接收的"提示詞"長什么樣。
對于行動學習,提示詞的結構非常簡潔:告知當前是第幾輪迭代、當前的參數值是多少,然后列出過去19輪的適應度和共識差異記錄,最后給出兩條更新規則(適應度停滯時加大某參數、共識差異高時加大另一參數),并要求模型只輸出更新后的參數對,不作任何額外解釋。參數的取值范圍也在提示詞中明確給出,約束了模型的輸出空間。
對于合作學習,提示詞會告知鄰居數量,然后提供最近10輪每個鄰居的平均適應度和平均共識差異,給出權重調整的直覺規則(適應度低且共識差異小的鄰居權重應更高,反之降低),并要求輸出一個所有權重構成的向量,自然滿足系統的歸一化需求。
這兩套提示詞的共同特點是:完全基于局部和鄰居的歷史信息,不包含任何全局狀態;格式固定、指令明確,減少了模型輸出的不確定性;約束了輸出范圍,為后續的合理性檢查提供了基礎。
實驗中使用的是DeepSeek-R1:14B這個14億參數規模的大語言模型,通過Ollama運行時在本地部署,不依賴任何外部API或云服務,符合分布式系統"每個節點獨立運行"的設計原則。
說到底,LAC-MAS做的事情可以用一句話概括:在分布式黑盒優化這個"偵探團隊破案"的問題上,不再給偵探發死板的操作手冊,而是讓他們能夠根據自己的歷史經驗不斷調整策略,同時通過一位偶爾出現的智慧顧問,幫助他們更好地發現哪些同事的情報更有價值、自己當前應該更多探索還是更多收斂。這種自適應的雙層結構——底層的粒子群執行加上頂層的軌跡驅動指導——讓整個系統在面對各種不同類型的優化問題時都能保持穩健的表現,而不會像固定規則方法那樣在某些場景下明顯失靈。
這項研究也指出了自身的局限性和未來方向。目前的框架仍是一個"初步探索",通信拓撲是固定的,大語言模型的推理成本也是一個實際部署時需要考量的因素。未來的工作可能會探索更動態的拓撲適應、更輕量級的指導機制,以及如何將這套框架擴展到規模更大、異構程度更高的系統中。對于這一領域感興趣的讀者,可以通過arXiv編號2605.00691查閱完整論文,深入了解所有技術細節和實驗數據。
Q&A
Q1:LAC-MAS和普通的粒子群優化算法有什么本質區別?
A:普通粒子群優化的參數是人工固定設置的,整個搜索過程中一成不變。LAC-MAS在此基礎上做了兩層改進:一是根據粒子群當前的分散程度動態選擇不同的行為系數;二是利用大語言模型分析歷史優化軌跡,定期更新這些行為系數本身以及智能體之間的合作權重。換句話說,普通粒子群是按固定食譜做菜,LAC-MAS是邊做邊根據口味反饋調整食譜。
Q2:LAC-MAS中大語言模型每輪都要運行嗎,計算成本高不高?
A:不是每輪都運行,這正是分階段認知調度機制的價值所在。大語言模型只在特定的時間節點被觸發,行動指導只更新兩次就停止,合作權重的更新也是按固定間隔稀疏發生的。底層的粒子群優化器則在所有輪次連續運行,兩者解耦,保證了整體計算效率。
Q3:分布式黑盒共識優化在現實中有哪些具體應用?
A:這類技術在多個實際場景中有直接應用價值。無線傳感網絡中的多目標定位(論文中已驗證)是其中一個典型例子。此外,無人機群編隊控制、工廠多機器人協同調度、分布式能源網絡的功率優化等,都屬于類似的問題結構——多個局部智能節點需要在有限通信下聯合優化一個全局目標,且目標函數難以顯式表達或計算梯度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.