八年前就有萬億參數模型的Meta,今天卻在多智能體架構上選擇了最務實的路線。Anthropic工程團隊最近發布的Claude Research技術詳解,可能是目前最干凈的生產級多智能體實踐文檔——但干凈不等于便宜,這套系統的入場券是15倍的token成本。
這不是批評,而是 trade-off 的明碼標價。Claude Research采用協調器-子智能體模式,專為廣度優先的研究任務設計:主智能體規劃路徑,并行啟動子智能體探索獨立方向,最后整合結果并核對引用。內部評估顯示,Claude Opus 4 主控 + Claude Sonnet 4 子智能體的組合,比單智能體 Opus 4 性能提升90.2%。
![]()
但那個15倍的數字更值得關注。Anthropic毫不避諱:這是架構的固有成本,不是優化能抹平的。如果任務無法拆解為并行獨立方向,你就是在白花錢。他們直接劃定了邊界——"需要所有智能體共享同一上下文、或智能體間存在大量依賴的領域,目前不適合多智能體系統"。緊耦合狀態、順序依賴、共享可變上下文,這些場景下協調開銷會迅速吞噬并行收益。
第一個決策點因此變得清晰:任務形狀是否匹配模式?研究類問題、獨立探索方向,并行子智能體才物有所值;鏈式依賴的工作流,單智能體或確定性管道通常更便宜可靠。
![]()
更有反常識的發現來自方差分析。在BrowseComp評估中,token用量單獨解釋了80%的性能方差,工具調用次數和模型選擇是另外兩個因素。而團隊通常反復迭代的提示措辭、指令風格,并未出現在主要驅動因素中。
這意味著什么?當單智能體系統在復雜任務上遇到瓶頸,首要問題不是提示工程能救多少,而是token預算是否給夠。生產環境的真實約束——成本上限、準確率SLA、速度預算、錯誤率——會重塑同樣的設計模式。協調器委托、并行子智能體、精簡返回產物、終態評估,這些模式可以遷移,但系統層面的架構必然不同。近看選擇相似,遠看系統迥異。
藍圖的價值在于暴露邊界,而非提供萬能模板。15倍成本是研究場景的入場券,你的場景是否愿意支付、能否支付,才是決策的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.