網易首頁 > 網易號 > 正文申請入駐

華南理工大學研究團隊提出全新多智能體框架

2026-05-08 20:16:41　來源: 科技行者

天津舉報

分享至

這項由華南理工大學計算機科學與工程學院領導的研究，于2026年5月以預印本形式發布在arXiv平臺，論文編號為arXiv:2605.00691v1，研究方向歸屬于多智能體系統領域（cs.MA）。有興趣深入了解的讀者可以通過該編號在arXiv查詢完整論文。

**一道難題：許多"小偵探"共同破案，卻只能看到自己那片區域**

假設你是一個偵探團隊的成員，這個團隊有二十個偵探，分別駐守城市的不同角落。你們共同的任務是找到一個隱藏在城市某處的重要線索——但每個偵探只能看到自己那片區域，無法看到其他偵探的地盤，也無法知道全城的整體情況。你們之間唯一的溝通方式，是偶爾和相鄰街區的同事傳遞簡短的消息。在這種情況下，怎樣才能讓整個團隊最終"達成共識"，找到最好的答案？

這個偵探團隊的故事，正是現代分布式系統中一個真實存在的技術難題的縮影。在無線傳感網絡、自動駕駛車隊、工廠機器人群組等場景里，許多"智能體"（可以理解為獨立運作的AI小單元）需要共同優化一個全局目標，但每個智能體只能訪問自己的局部信息，只能和鄰居交流，完全無法看到全局。這類問題在學術上被稱為"分布式黑盒共識優化"——"黑盒"意味著連目標函數長什么樣都不知道，只能靠反復試錯來感知好壞；"共識"則意味著所有智能體最終必須在同一個答案上達成一致。

過去的方法大多依賴人工設計的固定規則——就像給每個偵探發一本死板的操作手冊，規定他們在什么情況下怎么行動，和哪個同事分享多少信息。這類手冊的問題在于：真實的破案現場千變萬化，固定規則往往顧此失彼，要么偵探們各自為戰、遲遲無法統一意見，要么過于保守、錯過了關鍵線索。

華南理工大學的研究團隊針對這一痛點，提出了一個名為 **LAC-MAS**（Learning to Act and Cooperate for Multi-Agent Systems，學會行動與合作的多智能體系統）的全新框架。這套框架的核心思想是：不再給偵探們發固定手冊，而是讓他們能夠根據自己的歷史經驗，動態調整自己的偵查策略和與同事合作的方式。更妙的是，框架中引入了大語言模型（可以理解為一位經驗豐富的"顧問"），偶爾幫偵探們回顧歷史記錄、提出策略建議——但這位顧問不會直接替偵探做決定，只是給出高層次的指引。

**一、偵探團隊面對的三重困境**

理解這項研究的價值，需要先弄清楚分布式黑盒優化到底難在哪里。

難點之一，是信息的極度不完整。每個智能體既看不到全局目標，也無法訪問其他智能體的狀態，只能通過函數查詢感知自己局部區域的"好壞"。這就像每個偵探只能在自己的街區找線索，永遠不知道城市另一頭發生了什么。

難點之二，是探索與收斂之間的矛盾。每個智能體需要在"廣泛探索未知區域"和"向當前最好位置靠攏"之間保持平衡。探索太多，會浪費大量資源；收斂太快，則容易陷入局部最優——就像偵探過早斷定"兇手就是鄰居大叔"，反而錯過了真正的線索。

難點之三，是共識的達成需要有效協作。即便每個智能體局部表現很好，如果大家無法最終統一到同一個答案，整個系統的目標就無法實現。而協作的質量取決于智能體如何利用鄰居的信息——盲目地把所有鄰居的信息平均對待，往往不如有所側重、優先參考那些表現更好的鄰居。

現有的經典方法，比如EXTRA、ADMM，依賴明確的梯度信息，對黑盒場景無能為力。強化學習方法雖然靈活，但在多智能體場景中訓練不穩定、可擴展性差。粒子群算法等啟發式方法更接地氣，但依賴人工設計的更新規則，缺乏自適應能力。LAC-MAS的出現，正是為了在這三重困境中找到一條更好的出路。

**二、粒子群：每位偵探手下的"搜查小隊"**

在正式介紹LAC-MAS的核心機制之前，需要理解它的底層執行單元——粒子群優化器。

每個智能體并不是一個單獨的偵探，而是帶領著一支由若干"搜查員"（粒子）組成的小隊。每個搜查員在解空間中占據一個位置，代表一個候選解，并且根據一定的速度在空間中移動。小隊集體探索解空間，通過不斷嘗試不同位置來感知目標函數的好壞。

研究團隊對傳統粒子群優化做了一項關鍵改進：引入了基于"粒子分散程度"的自適應內部機制。可以這樣理解：如果搜查小隊的成員們四散分布、相距很遠（高分散），說明整個小隊還處于廣泛探索階段；如果成員們聚集在一起（低分散），說明大家已經開始向某個區域收斂。

基于這個判斷，智能體會自動選擇不同的行為系數。當分散程度高時，用一個對應"探索模式"的系數來驅動搜查員大膽游走；當分散程度低時，換成"收斂模式"的系數讓大家穩定地向好位置靠攏；而居于兩者之間的中等分散狀態，則對應一個平衡系數。每個智能體維護著三個系數構成的小集合，在運行過程中動態選擇當前應該激活哪一個。

這個機制的數學表達相當直接：研究團隊定義了粒子質心（所有搜查員位置的平均值）和粒子散度（所有搜查員到質心距離的平均平方），然后根據散度是否超過兩個閾值來決定使用哪個系數。選定的系數作為一個縮放因子，乘以搜查員的速度更新量，控制整體移動幅度的大小。

這已經是比傳統固定參數粒子群好得多的設計——但如果這三個系數本身是人工固定設置的，整個機制依然是"規則驅動"的。LAC-MAS的妙處在于，它更進一步：讓大語言模型根據歷史優化軌跡來動態推斷這三個系數應該是多少，讓"行為策略"本身也能從經驗中學習。

**三、給每位偵探配一位"顧問"：大語言模型的角色**

在LAC-MAS中，每個智能體都配備了一個大語言模型作為高層次指導模塊。這位"顧問"的工作方式與直覺中的AI截然不同——它并不直接控制搜查員的移動，不輸出具體的坐標或數值，而是扮演一個策略顧問的角色：根據近期的優化歷史，給出兩類建議。

第一類建議是"學會行動"，即調整智能體的內部行為策略。顧問會查看智能體最近若干輪的適應度值（目標函數值，越低越好）和共識差異度（所有智能體之間的分歧大小），結合一套規則——如果適應度停滯不前而共識差異已經很小，說明大家鎖定到了某個局部區域，應該加大探索力度；如果適應度在緩慢改善但共識差異還很大，說明各智能體還比較分散，應該加強向中心靠攏的力度——從而推斷出合適的參數值，更新那三個行為系數。

這個過程的本質，是將"歷史軌跡"轉化為"參數調整建議"。大語言模型通過自然語言提示詞接收結構化的軌跡數據，輸出更新后的參數值，然后由系統進行合理性檢查（確保值在設定范圍內）并投入使用。

第二類建議是"學會合作"，即調整智能體在共識融合階段如何對待鄰居的信息。在分布式系統中，每個智能體最終需要將自己的狀態和鄰居的狀態加權平均，以推動全局共識的形成。傳統做法是對所有鄰居一視同仁，賦予均等權重。但有些鄰居可能優化做得很好、分散程度低、進展穩定，參考價值更高；另一些鄰居可能正陷于局部困境，過度參考反而會拖累自己。

為了解決這個問題，每個智能體會構建一個"鄰居描述符"，對每位鄰居的近期表現進行總結，包含三項指標：近期平均適應度、近期平均粒子散度、近期平均狀態變化幅度。這三項指標分別反映鄰居的解質量、探索狀態和搜索活躍程度。大語言模型根據這些描述符，為每位鄰居打分，輸出一組候選權重；系統對這組權重進行歸一化處理，確保權重非負且總和為1，然后用于加權共識更新。

值得強調的是，整個合作機制并不改變智能體之間的通信拓撲——誰和誰相連還是固定不變的，改變的只是現有連接的"信息權重"。就像偵探團隊的編制沒變，但每個偵探學會了更多地參考那些線索質量更高的同事，而不是平等對待所有人的匯報。

**四、顧問何時出手：分階段認知調度的精妙設計**

如果顧問每一輪都來打擾，既浪費計算資源，也會導致策略頻繁抖動、難以穩定。而且，"學會行動"和"學會合作"這兩類指導在不同階段發揮的作用不同：前者主要在優化早期和中期、搜索模式發生大轉變的時候才需要更新；后者則需要隨著鄰居相對表現的變化而持續調整。

研究團隊為此設計了一套"分階段認知調度"機制（Phased Cognitive Guidance，PCG），相當于為整個優化過程規劃了一個時間表，規定顧問在什么時候提供什么類型的建議。

整個過程被劃分為四個自然浮現的階段。第一階段是軌跡積累期，所有偵探先按照基礎策略自由行動，積累足夠的歷史數據，為后續的學習打好基礎，顧問此時保持沉默。第二階段是行動學習期，顧問開始介入，根據積累的軌跡為各智能體調整內部行為系數，優化各自的搜索模式，但合作權重暫時不動。第三階段是行動與合作聯合優化期，兩類指導同時激活，智能體既調整內部搜索策略，也重新評估與鄰居的合作關系，這是整個系統最動態的階段。第四階段是共識導向的穩定期，內部行為調整被關閉，只保留合作權重的持續更新，讓系統在穩健的協作基礎上平穩地推進共識收斂，避免晚期因內部擾動過大而破壞穩定性。

為了確定這四個階段的時間節點，研究團隊采用了一種"預實驗標定"的方法：在正式運行前先做一個輕量級的預熱實驗，估算出一個特征優化時長T作為時間參考基準，然后用若干比例參數來劃定各階段的邊界。這個T不需要精確預測收斂時間，只要數量級大致合理即可。

合作權重的刷新時間點被設計為均勻間隔分布（例如每隔一定比例的T就刷新一次），而行動指導的刷新則只在兩個關鍵時刻觸發（大約在T的某兩個比例點上），一旦超過T就完全停止行動指導的更新。這種"外頻內稀"的非對稱設計，精準地匹配了兩類指導的不同功能需求。

**五、理論保障：這套機制真的能收斂嗎？**

對于優化算法來說，能不能最終讓所有智能體達成共識，是一個必須回答的理論問題。研究團隊對LAC-MAS的共識保證進行了嚴格的數學分析。

整個分析的核心思路是：把LAC-MAS的協作更新寫成一個矩陣迭代的形式——下一時刻的系統狀態等于當前時刻的狀態乘以一個混合矩陣，再加上一個擾動項。如果這個混合矩陣滿足"行隨機矩陣"的條件（每行元素非負且求和為1，且與通信圖結構相容），并且擾動項隨時間趨近于零，那么經典的共識理論就能保證系統最終收斂。

研究團隊逐一驗證了LAC-MAS滿足這些條件。關于混合矩陣的條件：由于合作權重在執行前都經過了歸一化處理，加上大語言模型只在現有通信鏈路內分配權重，混合矩陣始終是行隨機且與連通圖相容的。關于內部擾動的有界性：行為系數來自一個有限的集合，因此有界；在分階段調度下，行為指導的刷新次數有限，不會產生持續的高頻切換。關于擾動項的漸近消失：在最終階段行為調整停止后，系統進入穩定的執行狀態，局部搜索引入的擾動會隨著粒子群自然收斂而趨近于零。

基于這三點，整個系統構成了一個在連通圖上運行的"行隨機切換共識系統，帶有漸近消失的擾動"，標準的共識定理可以直接應用，從而保證了所有智能體的狀態差異最終趨近于零。

**六、實驗驗證：偵探團隊在標準考場和真實案件中的表現**

理論再完美，也需要實驗來檢驗。研究團隊在兩類場景下對LAC-MAS進行了全面評估。

標準基準測試方面，研究團隊使用了10個經典的分布式黑盒優化測試函數（F1至F10），這些函數覆蓋了從簡單的單峰景觀到復雜的多峰、異構、非可分函數等多種難度類型，全部以100維決策變量、20個智能體的規模運行，嚴格遵守"每個智能體只能查詢自己的局部目標，全局目標在優化過程中不可見"的協議。每種算法獨立運行25次，用Friedman檢驗和Nemenyi事后檢驗進行統計顯著性分析。

參與對比的方法包括：MASOIE（與LAC-MAS最相近的先進基線，也是"首席競爭對手"）、GFPDO（采用顯式共識機制但通信開銷較大的方法）、RGF（隨機梯度無關方法）和DA-PSO（分布式粒子群算法）。

實驗結果顯示，LAC-MAS在大多數測試函數上都能取得比MASOIE更低的最終適應度值。在那些需要靈活調節探索與收斂節奏的函數（如F1、F5、F8、F10）上，LAC-MAS對MASOIE的優勢尤為明顯，統計顯著性達到了α=0.01的水平。在少數具有特殊景觀結構的函數（如F3、F6）上，LAC-MAS和MASOIE的差異不顯著，但兩者都大幅領先其他基線方法，說明LAC-MAS在這類函數上至少保持了最優水平而沒有退步。

對GFPDO、RGF、DA-PSO這三種更早期的基線，LAC-MAS幾乎在所有10個函數上都取得了統計顯著的優勢，差距往往在數量級以上。

消融實驗方面，研究團隊設計了四種變體來拆解LAC-MAS的各個組件貢獻。單獨啟用行動學習（LAC-MAS-Act）但保留固定合作權重，或單獨啟用合作學習（LAC-MAS-Coop）但保留固定行為系數，都能比純粹的MASOIE基線有所改善，但兩者各有側重。LAC-MAS-Act變體在最終解的質量上提升明顯，但代價是通信成本略微增加，因為更活躍的探索行為會延緩共識的形成；LAC-MAS-Coop變體則在降低通信成本和加速共識達成上表現突出，但最終解的質量提升有限。完整的LAC-MAS綜合了兩者的優點，在解的質量、共識速度和通信效率上都達到了最好或接近最好的平衡。

真實應用場景方面，研究團隊將LAC-MAS遷移到了無線傳感網絡（WSN）中的多目標定位任務上。這個任務的設定是：已知位置的若干傳感器，需要聯合估計多個位置未知的目標的三維坐標，每個傳感器只能觀測到自己收到的信號強度，通信有限。全局目標函數是所有傳感器的定位誤差之和，但任何單個傳感器都無法訪問這個全局值。這個場景對LAC-MAS來說是一次真正的"遷移測試"，因為研究團隊并沒有針對WSN任務做任何專門的重新設計或參數調優。

實驗結果令人印象深刻：在目標數量從10個增加到50個的全過程中，LAC-MAS始終保持了遠低于其他方法的估計誤差。當目標數量為10時，LAC-MAS的估計誤差約為0.07，而MASOIE約為0.24，GFPDO為3.61，RGF為17.92，DA-PSO則高達60.49。隨著目標數量增加，所有方法的誤差都有所上升，但LAC-MAS的增長幅度最小、保持的優勢也最穩定。這說明LAC-MAS所學到的行動與合作策略具有良好的泛化能力，能夠在新的分布式黑盒任務場景中保持有效。

**七、顧問是怎么"說話"的：提示詞設計揭秘**

了解大語言模型如何在LAC-MAS中工作，需要看一看它接收的"提示詞"長什么樣。

對于行動學習，提示詞的結構非常簡潔：告知當前是第幾輪迭代、當前的參數值是多少，然后列出過去19輪的適應度和共識差異記錄，最后給出兩條更新規則（適應度停滯時加大某參數、共識差異高時加大另一參數），并要求模型只輸出更新后的參數對，不作任何額外解釋。參數的取值范圍也在提示詞中明確給出，約束了模型的輸出空間。

對于合作學習，提示詞會告知鄰居數量，然后提供最近10輪每個鄰居的平均適應度和平均共識差異，給出權重調整的直覺規則（適應度低且共識差異小的鄰居權重應更高，反之降低），并要求輸出一個所有權重構成的向量，自然滿足系統的歸一化需求。

這兩套提示詞的共同特點是：完全基于局部和鄰居的歷史信息，不包含任何全局狀態；格式固定、指令明確，減少了模型輸出的不確定性；約束了輸出范圍，為后續的合理性檢查提供了基礎。

實驗中使用的是DeepSeek-R1:14B這個14億參數規模的大語言模型，通過Ollama運行時在本地部署，不依賴任何外部API或云服務，符合分布式系統"每個節點獨立運行"的設計原則。

說到底，LAC-MAS做的事情可以用一句話概括：在分布式黑盒優化這個"偵探團隊破案"的問題上，不再給偵探發死板的操作手冊，而是讓他們能夠根據自己的歷史經驗不斷調整策略，同時通過一位偶爾出現的智慧顧問，幫助他們更好地發現哪些同事的情報更有價值、自己當前應該更多探索還是更多收斂。這種自適應的雙層結構——底層的粒子群執行加上頂層的軌跡驅動指導——讓整個系統在面對各種不同類型的優化問題時都能保持穩健的表現，而不會像固定規則方法那樣在某些場景下明顯失靈。

這項研究也指出了自身的局限性和未來方向。目前的框架仍是一個"初步探索"，通信拓撲是固定的，大語言模型的推理成本也是一個實際部署時需要考量的因素。未來的工作可能會探索更動態的拓撲適應、更輕量級的指導機制，以及如何將這套框架擴展到規模更大、異構程度更高的系統中。對于這一領域感興趣的讀者，可以通過arXiv編號2605.00691查閱完整論文，深入了解所有技術細節和實驗數據。

Q&A

Q1：LAC-MAS和普通的粒子群優化算法有什么本質區別？

A：普通粒子群優化的參數是人工固定設置的，整個搜索過程中一成不變。LAC-MAS在此基礎上做了兩層改進：一是根據粒子群當前的分散程度動態選擇不同的行為系數；二是利用大語言模型分析歷史優化軌跡，定期更新這些行為系數本身以及智能體之間的合作權重。換句話說，普通粒子群是按固定食譜做菜，LAC-MAS是邊做邊根據口味反饋調整食譜。

Q2：LAC-MAS中大語言模型每輪都要運行嗎，計算成本高不高？

A：不是每輪都運行，這正是分階段認知調度機制的價值所在。大語言模型只在特定的時間節點被觸發，行動指導只更新兩次就停止，合作權重的更新也是按固定間隔稀疏發生的。底層的粒子群優化器則在所有輪次連續運行，兩者解耦，保證了整體計算效率。

Q3：分布式黑盒共識優化在現實中有哪些具體應用？

A：這類技術在多個實際場景中有直接應用價值。無線傳感網絡中的多目標定位（論文中已驗證）是其中一個典型例子。此外，無人機群編隊控制、工廠多機器人協同調度、分布式能源網絡的功率優化等，都屬于類似的問題結構——多個局部智能節點需要在有限通信下聯合優化一個全局目標，且目標函數難以顯式表達或計算梯度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.