網易首頁 > 網易號 > 正文申請入駐

美團LongCat團隊：讓AI像人類集體討論一樣解題，成績提升多少？

2026-05-11 17:10:46　來源: 科技行者

天津舉報

分享至

這項由美團LongCat團隊與北京大學軟件工程國家工程研究中心聯合開展的研究，以預印本形式于2026年5月4日發布，論文編號為arXiv:2605.02396v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

一、當一個AI大腦不夠用，為什么不讓它"開小組討論"？

你有沒有遇到過這種情況：一道難題自己想了半天沒頭緒，但和幾個朋友一起討論，大家各自從不同角度分析，最終得出了正確答案。這種"眾人拾柴火焰高"的現象，在人類解題中屢見不鮮。美團LongCat團隊的研究者們就在想：能不能讓AI也用同樣的方式來解決復雜問題？

這篇論文提出的核心想法叫做HEAVYSKILL，中文可以理解為"重度思考技能"。它的本質很簡單：與其讓AI只思考一次就給出答案，不如讓AI同時啟動多個獨立的思維分支，各自解題，然后再由一個"總結者"把所有思路匯總，判斷哪個正確，最終給出答案。就像一個班級里，老師把同一道難題交給多個學習小組獨立解答，然后召集所有小組匯報結果，最后由老師綜合各組的思路做出最權威的判斷。

這個思路聽起來很直覺，但研究團隊做的事遠不止"想出這個點子"這么簡單。他們系統地研究了這種方式到底有多有效、在哪些情況下最管用、如何把它變成AI可以直接調用的"技能"，還探索了能否通過強化學習進一步強化這種能力。接下來就一步步拆解這項研究。

二、AI智能助手背后的"指揮中心"是怎么工作的？

在理解HEAVYSKILL之前，有必要先了解一下現代AI助手的工作方式。目前主流的AI系統往往不是一個單獨的大腦，而更像一個復雜的公司組織架構——有一個"總指揮"（稱為編排器或協調者），下面管著許多專門的"小分隊"（子代理），各自負責不同任務，還配有"檔案室"（記憶組件）和"工具庫"（技能組件）。

這種架構被稱為"智能體編排框架"，代表性的系統包括Claude Code、CodeX以及Hermes等。這些系統之所以能夠處理復雜任務，是因為總指揮可以靈活調配各個小分隊協同工作。然而，研究團隊發現了一個關鍵問題：這些系統的優秀表現，到底是因為精妙的架構設計，還是因為AI模型本身的推理能力在發揮作用？

研究團隊通過仔細觀察發現，無論架構多么復雜，這些系統的核心工作模式其實都可以歸納為兩個步驟：先是讓多個子代理"并行思考"（各自獨立分析同一個問題），然后再由總指揮"匯總歸納"（綜合所有分析得出最終答案）。換句話說，花哨的系統架構其實只是這兩個步驟的不同包裝方式。

這一發現讓研究團隊產生了一個大膽的想法：既然核心機制就是"并行思考加匯總"，何不把這個能力直接內化到AI模型本身，讓模型無需復雜的外部架構就能自己執行這套流程？這正是HEAVYSKILL的立論基礎。

三、HEAVYSKILL的工作原理：一場有組織的頭腦風暴

HEAVYSKILL的工作流程可以拆分為兩個清晰的階段，像接力賽一樣前后銜接。

第一階段叫做"并行推理"。給定一道題目，系統會同時啟動K個獨立的推理者（K通常設為8或16），每個推理者完全不知道其他推理者在想什么，各自從零開始解題。這種相互隔離非常重要——正是因為每個推理者的思路完全獨立，才能產生真正多樣化的解題路徑。有人可能用代數方法，有人用幾何方法，有人傾向于暴力窮舉，有人則尋求簡潔的優雅解法。多樣化的思路意味著更大的概率覆蓋到正確答案。

所有推理者完成解題后，他們的思考過程會被整理成一個"記憶緩存"，也就是一份按順序排列的思路匯總文檔。由于每個推理者的思考過程往往非常冗長，直接把全部內容放進去會超出AI的處理上限，所以系統會對每條思路進行適當裁剪，并且打亂順序排列，防止AI對某個特定位置的答案產生偏向。

第二階段叫做"順序審議"。另一個AI扮演"總結者"的角色，拿到這份匯總文檔后，不是簡單地數哪個答案出現次數最多就采納哪個，而是進行真正的批判性分析。總結者會比較各個推理者思路的差異，找出邏輯漏洞，判斷哪個推理鏈條最為嚴密，甚至在發現所有推理者都錯了的情況下，獨立重新推導出正確答案。

此外，研究團隊還設計了一個可選的"迭代審議"機制。在第二階段產生總結結果后，這個總結可以被重新放回記憶緩存，作為一個額外的"專家推理者"參與下一輪審議。如此循環，最多可以進行N輪迭代，讓答案在反復打磨中趨向正確。

四、把工作流程變成一張"說明書"：AI讀懂就能執行

這套流程不僅可以通過外部代碼來驅動，研究團隊還將其提煉成了一份AI可以直接閱讀和執行的"技能文件"——HEAVYSKILL.md。

這份文件本質上是一份用自然語言寫成的操作規范，就像給新員工入職時發的工作手冊。文件的第一部分明確規定了什么情況下應該啟用這套流程：當面對競賽數學、復雜邏輯推理、算法編程等高難度問題時，應當激活；對于簡單的信息查詢或日常聊天，則不必啟動，避免浪費計算資源。

文件的第二部分描述了如何生成并行推理：系統應該同時啟動3到5個（在完整工作流模式下可達8個以上）相互獨立的推理代理，每個代理必須從頭開始解題，不得參考其他代理的工作。文件還鼓勵不同代理采用不同的解題策略，以最大化多樣性。

文件的第三部分包含了審議階段的核心提示：總結者必須明確區分哪些推理鏈條是邏輯嚴密的，哪些存在缺陷；多數人的意見是參考信號，但絕非正確的保證；少數派的正確推理值得認真對待；如果所有推理者都錯了，總結者有責任獨立重新推導答案。

文件的第四部分規定了輸出格式：最終給用戶的只是答案本身，不需要展示整個分析元過程；數學題用標準的方框格式，編程題用代碼塊，以保持與用戶期望的一致性。

這份文件最大的優勢在于其可移植性。由于它只是一份純文本文檔，沒有任何特定系統的依賴，可以被插入任何支持技能加載和子代理調用的AI編排框架中，無需修改任何代碼。研究團隊已驗證，同一份HEAVYSKILL.md文件在Claude Code和自定義編排框架中均可正常運行。

五、真正的考試：讓AI去解競賽數學題和編程難題

研究團隊為HEAVYSKILL安排了一系列嚴苛的考試，覆蓋了理工科、編程和通用推理多個方向。

在理工科方面，測試題目來自AIME25（美國數學邀請賽2025年題目）、BeyondAIME（超越AIME難度的題目）、HMMT25-Feb（哈佛-麻省理工數學競賽2025年2月場）以及GPQA-Diamond（研究生級別物理、化學、生物綜合題目）。這些題目對人類來說也相當有挑戰性，對AI更是如此。

測試中參與的AI模型涵蓋了閉源和開源兩大陣營。閉源方面包括GPT-5 Thinking、Claude 4.5 Thinking和Gemini 3 Pro Preview；開源方面則包括DeepSeek R1系列、Qwen3系列、Kimi K2 Thinking、GLM 4.6等十余個模型，涵蓋了從7億到超大規模參數的不同體量。

為了衡量效果，研究團隊設計了五種評價指標，形成了一套完整的測量體系。Mean@K衡量的是K次并行推理的平均準確率，反映基礎水平。Pass@K衡量的是K次推理中至少有一次正確的比例，代表模型的"能力天花板"。Vote@K則是傳統多數投票法的準確率，相當于當前常用的"最佳K選N"策略（Best-of-N）。在HEAVYSKILL框架下，還有兩個新指標：Heavy-Mean@K（簡稱HM@K）是經過審議階段后的平均準確率，Heavy-Pass@K（HP@K）是審議后結果中至少一次正確的比例。

實驗默認將溫度參數設為1.0，并行推理路數K設為8或16，審議階段生成4份總結內容。

六、數據說話：HEAVYSKILL到底有多強？

測試結果構成了一幅清晰的圖景，整體規律相當穩定。

在理工科任務上，HEAVYSKILL展現出全面且穩健的優勢。以DeepSeek R1-0528模型在HMMT25-Feb上的表現為例：在K=8的情況下，單次推理平均準確率（M@8）為80.8%，多數投票準確率（V@8）為86.7%，而HEAVYSKILL的平均準確率（HM@4）達到91.7%，進一步接近了"能力天花板"Pass@8的93.3%。類似的提升幅度在幾乎所有模型和所有理工科測試集上都能觀察到。

研究團隊總結出了一個貫穿所有實驗的規律：Heavy-Pass@K ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@K。這個層次關系說明，HEAVYSKILL不僅讓平均表現優于傳統投票方法，甚至在"潛力天花板"層面也超越了單純并行推理的上限——這意味著審議階段有時能合成出單個推理路徑根本沒有出現過的正確答案。

對于頂尖的前沿模型，效果更為顯著。GPT-5 Thinking在BeyondAIME上，K=16時HM@4達到82.5%，HP@4達到88.0%，而相應的Mean@16只有70.1%。Kimi K2 Thinking在AIME25上，K=8時HM@4直接達到100%，與Pass@8的上限齊平。GLM 4.6在HMMT25-Feb上，K=16時HM@4達到99.2%，同樣逼近100%的極限。

傳統多數投票方法在某些高難度任務上的局限性也被清楚地暴露出來。對于多數模型而言，在BeyondAIME、HMMT和GPQA-Diamond這類更具挑戰性的測試集上，HEAVYSKILL相對投票方法的優勢比在AIME25上更為明顯——正是因為AIME25對強模型來說已經接近飽和，反而看不出多大差別。

在通用推理任務上，情況略有不同，體現出明顯的任務依賴性。在LiveCodeBench（代碼競賽）和IFEval（指令遵循）這類有明確正確答案的任務上，提升依然顯著。GPT-OSS-20B在LiveCodeBench上的準確率從69.7%躍升到85.5%；R1-Distill-Qwen3-8B在IFEval上從35.7%提升到69.3%，幾乎翻了一倍。然而在Arena-Hard（人類偏好對話）這類主觀性任務上，提升幅度就相當有限，有時甚至略有下降。這說明審議機制在"追求正確性"的任務上效果突出，但在"追求風格偏好"的任務上未必占優。

七、深挖：是哪些環節真正決定了成?。?/p>

除了整體測試，研究團隊還做了一系列拆解實驗，試圖弄清楚HEAVYSKILL各個部分的具體貢獻。

第一個實驗研究了審議階段能否糾正并行推理階段的錯誤。研究者用R1-Distill-Qwen-7B模型，對1萬道題各自生成16條并行推理路徑，然后按并行通過率（即K條推理中正確的比例）把題目分組，分別觀察審議后的通過率變化。結果顯示，即使對于那些并行通過率低于50%的"困難題目"，審議階段依然能夠糾正相當一部分錯誤——大約有500道原本多數推理者都答錯的題目，經過審議后被成功糾正。而對于并行通過率已經超過50%的題目，審議階段的成功率超過98%，極少出現反向退步。

第二個實驗研究了審議階段用什么模型最合適。研究者固定第一階段使用R1-Distill-Qwen-7B，第二階段分別換用三種不同的模型：同樣是R1-Distill-Qwen-7B、更新的R1-Distill-Qwen3-8B，以及Qwen2.5-32B-Instruct。結果頗為出人意料：即便是Qwen2.5-32B-Instruct這個模型在獨立解題時的表現比R1-Distill-Qwen-7B還要差（其在AIME25上的獨立準確率只有12.8%），但當它被用作第二階段的審議者時，依然能產生有效的性能提升。這說明審議階段考驗的不是"會不會自己解題"，而是"能不能綜合分析多條推理路徑"——這是一種不同類型的能力，更偏向于批判性閱讀和綜合判斷。

第三個實驗研究了迭代次數對效果的影響。研究者將迭代次數從1輪擴展到4輪，每輪固定使用8條并行推理，觀察HM@K和HP@K的變化趨勢。結果顯示，隨著迭代次數增加，HM@K（平均準確率）呈現穩定的上升趨勢，說明多輪迭代確實有助于進一步提升整體表現。然而HP@K（最高潛力指標）卻隨迭代次數增加而有所下降，說明多輪迭代在提升平均表現的同時，可能也引入了來自前幾輪的信息干擾，限制了模型在少數情況下發揮出極限水平的可能性。這揭示了一個需要權衡的核心矛盾：迭代的深度與信息一致性之間存在張力，并非越多越好。

第四個實驗研究了如何從大量并行推理中選取哪K條進行審議。研究者對每道題生成256條推理路徑，然后比較四種選取策略。隨機選取是基準；最大多樣性策略選擇差異最大的K條；最大長度策略選擇最長的K條；最高頻率策略選擇包含最高頻率答案的K條（即多數投票優先）。結果發現，最大長度策略表現最差，說明推理越長未必越對；最大多樣性策略與隨機選取效果相近，說明刻意追求多樣性的邊際收益有限；最高頻率策略表現最好，說明先用多數投票篩選出可信度較高的推理路徑，再交給審議階段精煉，是更明智的組合策略。

第五個實驗將HEAVYSKILL擴展到需要調用外部工具的場景。研究者讓模型在解題過程中可以調用Python解釋器獲取運算結果，每次與解釋器的交互最多50輪。測試結果顯示，在AIME25和HMMT25上，HM@4依然全面超過傳統投票方法，說明HEAVYSKILL的核心機制在工具輔助場景下同樣有效。

八、用強化學習繼續"磨煉"這項技能

除了以上已有能力的測試，研究團隊還探索了一個更前沿的問題：能不能通過訓練讓AI把這種"重度思考"的能力變得更強？

具體方案是，把并行推理加審議的完整過程打包成訓練數據，用可驗證獎勵強化學習（RLVR）來優化模型。訓練框架采用VeRL，強化學習算法采用GSPO。訓練對象是R1-Distill-Qwen-7B，訓練數據專門選取了那些"并行通過率在0到62.5%之間"的困難題目，也就是模型不太擅長的那類題目，分別用K=8和K=16兩種并行配置進行訓練。

從訓練過程的圖表來看，在前100步內，模型在訓練集和測試集上的HM@4均呈現穩定的上升趨勢，最終提升幅度約為10個百分點。然而兩種配置的表現出現了分歧：K=16的配置在超過100步后出現了明顯的熵崩塌現象，訓練變得不穩定；而K=8的配置在整個訓練過程中保持了相對穩定的趨勢。研究團隊判斷，K=16時產生的序列化記憶緩存過長，超出了R1-Distill-Qwen-7B模型的有效處理范圍，導致訓練信號質量下降。

這些初步結果表明，RLVR確實能在一定程度上提升HEAVYSKILL的效果，但如何在更大的并行規模下維持訓練穩定性，還需要進一步的研究來解決。

說到底，這項研究做的事情是把一個聽起來很復雜的"多智能體協作系統"還原成了它的本質：AI同時用多種思路解題，然后由一個批判性的總結者篩選出最佳答案。這套機制被提煉成了一個可以在任意AI編排框架中插拔使用的技能文件，不依賴于任何特定的系統設計。通過覆蓋十余個模型、多個難度層級測試集的系統實驗，研究團隊證明了這種方式在理工科推理和代碼競賽任務上的穩定有效性，尤其是對于強模型，表現能夠接近理論上限。對于普通用戶而言，這意味著未來AI助手在處理復雜問題時，有望通過這類機制提供更加可靠和準確的答案，而不只是給出一個可能出錯的一次性推斷。對于AI研究者而言，如何在不增加系統架構復雜度的前提下，進一步通過訓練把這種技能刻入模型本身，仍然是一個值得深入探索的開放問題。有興趣進一步了解技術細節的讀者，可以通過arXiv編號2605.02396查閱完整論文，對應的代碼也已開源。

Q&A

Q1：HEAVYSKILL和普通多數投票（Best-of-N）有什么本質區別？

A：普通多數投票只是數哪個答案出現次數最多就采納哪個，本質上是一種統計方法，無法識別邏輯對錯。HEAVYSKILL的審議階段則會真正分析每條推理路徑的邏輯嚴密性，能夠識別"少數正確派"，甚至在所有推理者都犯錯時獨立推導出新答案。實驗數據顯示，HEAVYSKILL在困難題目上始終優于多數投票，差距在高難度測試集上尤為突出。

Q2：HEAVYSKILL在什么類型的任務上效果最好？

A：HEAVYSKILL在有明確正確答案、可以被客觀驗證的任務上效果最顯著，比如競賽數學題、科學計算題、算法編程題和指令遵循任務。對于主觀性強、以人類偏好為評判標準的任務（如開放式對話），提升幅度則相對有限，有時甚至略有下降。簡單來說，越"有標準答案"的任務，HEAVYSKILL的優勢越明顯。

Q3：審議階段使用能力弱一點的模型會不會影響效果？

A：不一定會。研究實驗發現，即使用獨立解題能力較弱的模型作為審議者，也能產生有效的性能提升。這是因為審議階段需要的核心能力是"綜合分析和批判性判斷"，而不是"獨立解題"。換句話說，一個不擅長自己解數學題但善于評估別人解題過程邏輯性的模型，同樣可以勝任審議工作。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.