![]()
CMU和Amazon AGI推出首個Agent Skill持續學習系統性基準SkillLearnBench,把答案拆到了Skill 生成、調用、執行的每一層。
Skill 擴展了 AI Agent 的能力邊界,也讓“給 Agent 配一本技能手冊”的思路受到廣泛關注。開發者們開始嘗試把自己的經驗“蒸餾”為各式各樣的 Skill,讓 Agent 在執行任務中直接調用。
但熱度背后,一個根本矛盾始終存在:高質量 Skill 依賴人類專家手工編寫,而真實世界的任務千變萬化,任何預先準備好的技能庫都很難覆蓋所有情況。
于是,越來越多研究者開始把目光轉向Skill 的持續學習 (Skill Continual Learning):讓 Agent 在執行任務的過程中自動積累 Skill,邊干邊學,而不是等人來寫。
但隨之而來的問題是:怎么去衡量不同持續學習方法的好壞?不同方法生成的 Skill 到底好在哪里、差在哪里?現有方法往往在各自的數據集和任務環境中進行驗證,缺乏統一評測環境;評估指標也大多停留在任務成功率層面,難以進一步區分失敗原因:是 Skill 本身質量的問題,還是 Agent 沒有正確調用 Skill?
為回答這些問題,來自 Carnegie Mellon University 和 Amazon AGI 的研究團隊提出了SkillLearnBench:首個面向 Agent Skill Continual Learning 的系統性評測基準,旨在統一環境下從 Skill 本身質量、Agent 執行軌跡、最終任務結果 三個層面評估不同 Skill Continual Learning 方法的表現。
![]()
論文鏈接:https://arxiv.org/abs/2604.20087
開源代碼倉庫:https://github.com/cxcscmu/SkillLearnBench
網站:https://cxcscmu.github.io/SkillLearnBench/
01
SkillLearnBench:
首個 Agent Skill Continual Learning 的系統性基準
SkillLearnBench 的任務集圍繞一個核心標準構建:這些任務必須真正依賴 Skill,即 Agent 在沒有 Skill 的情況下難以穩定完成。每個任務都配有人類編寫的 Skill (Human-authored),并包含多個經過改寫的實例;這些實例通過改變輸入數據、參數、約束條件或任務表述,檢驗生成的 Skill 是否真正學到了可遷移的任務流程,而不是只對單個樣例有效。最終,SkillLearnBench 包含 20 個技能依賴任務、100 個任務實例,覆蓋軟件工程、信息檢索、數據分析等 6 大類別、15 個子領域。同時,每個實例都配有確定性的 verifier,用于判斷 Agent 是否真正完成任務。
![]()
SkillLearnBench 的另一個關鍵設計是構建了一套多維度評估框架。研究者認為,一個 Skill 的持續學習方法首先會生成 Skill 文檔本身,隨后會影響 Agent 的執行軌跡,最終才決定任務結果;如果只看最終準確率,就很難判斷方法到底失敗在哪一步。因此,SkillLearnBench 將評估拆成三個層面:
1. Skill Quality,即 Skill 本身寫得怎么樣。研究團隊提出了 coverage、executability 和 safety 三個指標去評估生成的 Skill:它是否覆蓋了解題所需的關鍵知識,是否足夠完整、前后邏輯一致且可復用,以及是否存在安全風險。
2. Trajectory Analysis,即 Agent 使用 Skill 后的執行軌跡是否合理。這里不僅看 Agent 是否調用了 Skill ,還會分析是否按照正確順序完成關鍵操作。
3. Task Outcome,即最終任務是否成功,以及完成任務消耗了多少 token。
02
實驗結果
論文在 SkillLearnBench 上評估了四種代表性的 Skill 持續學習方法:
1. One-Shot:單輪生成 Skill,不進行反饋修正。
2. Self Feedback:Agent 先生成 Skill 并嘗試任務,再根據自己的執行過程反思和修改 Skill 。
3. Teacher Feedback:引入外部 teacher,根據失敗情況給出修改建議,引導 Agent 多輪改進 Skill 。
4.Skill Creator:使用 Anthropic 官方的 skill-creator 引導 Agent 生成 Skill。
![]()
![]()
主要發現:持續學習方法能夠生成有效 Skill,但與人類編寫 Skill 仍有明顯差距
表 2 中的實驗結果顯示,所有持續學習方法整體上都優于 no-skill baseline。即便當前自動生成的 Skill 并不完美,它們仍然能夠為 Agent 提供一定幫助。
但是,這些方法生成的 Skill 與人類專家編寫的 Skill 之間仍存在顯著差距。no-skill baseline 的平均準確率約為 10.17%,人類專家編寫的 Skill 可達到 74.50%;相比之下,當前自動生成 Skill 的方法大多停留在 27%–31% 左右。也就是說,持續學習方法確實能夠提升 Agent 表現,但也只是填補了 no-skill baseline 與人類專家編寫 Skill 之間的一部分差距。
其中,Self Feedback 在平均準確率和 token 效率上表現相對最好;Skill Creator 的 Skill 調用率最高,但準確率并不總是最高。這說明一個重要問題:Skill 被頻繁調用,并不代表它真的包含了解題所需的核心邏輯。
更強的模型不一定生成更好的 Skill
一個反直覺發現是:更強的 LLM 并不穩定地產生更好的 Skill。較強模型有時會寫出更精確但也更“死板”的 Skill。這種 Skill 在當前實例上看似合理,但在任務實例變化后反而容易失效。相比之下,中等規模模型有時能在具體性和泛化性之間取得更好的平衡。
這說明 Skill 生成并不是單純靠擴大模型規模就能解決的問題。一個好的 Skill 不僅要“說得多、說得細”,還要抓住跨實例穩定存在的核心任務邏輯。
當前 Skill 持續學習方法更適合結構化任務,開放式任務仍是難點
論文還發現, Skill 持續學習方法能帶來多少收益,很大程度上取決于任務類型。如表 3 所示,在 Software Engineering 和 Productivity Tools 這類任務中,流程相對清晰、可復用,Skill 可以編碼較為穩定的操作步驟,帶來的提升更明顯。相反,在開放性更強、實例差異更大的任務中,持續學習方法生成的 Skill 可能反而過度約束了Agent。
這也帶來一個啟示:未來的 Agent Skill 生成方法不能只依賴統一的模板,而需要根據任務類型調整生成 Skill 的粒度、結構和調用方式。
![]()
外部反饋比自我反思更能帶來改進
在多輪 Skill 演化實驗中,Teacher Feedback 和 Self Feedback 呈現出明顯差異。如圖 4 所示,Self Feedback 在多輪反思后并不總能持續進步,甚至可能出現 recursive drift:Agent 反復修改 Skill,但沒有新的外部信息輸入,只是重組已有內容,結果逐漸偏離正確執行路徑。相反,Teacher Feedback 由于引入了外部指導,能夠在多輪中持續補充缺失信息,使 Skill 的 coverage 指標和對應任務表現逐步提升。
因此,有效的 Skill Continual Learning 方法需要引入可靠的外部信號,例如 verifier 反饋、專家反饋,而不是單純依賴模型自我反思。
![]()
03
總結
SkillLearnBench 不只是提出了一個新的 benchmark,也為 Agent Skill 持續學習的研究提供了一個更細粒度的分析框架:從 Skill 生成,到 Skill 調用,再到任務完成,逐層定位瓶頸。它系統性地回答了當前 Agent 研究中的一個關鍵問題:目前的持續學習方法是否真的能夠生成有效 Skill?
答案是:可以,但還遠遠不夠。
SkillLearnBench 的實驗結論也為后續研究帶來啟示:未來的 Skill 生成研究不能只關注 Skill 文檔是否寫得“豐富”,而要關注兩個更關鍵的問題。
第一,Skill 是否真正捕捉解決任務的核心邏輯。很多失敗并不是因為 Skill 格式不規范,或者寫得不夠長,而是因為它缺少關鍵計算步驟、參數選擇邏輯、驗證機制或工具調用細節。
第二,Skill 是否能被 Agent 正確發現、調用并執行。一個好的 Skill 不只是靜態文檔,也必須能進入 Agent 的實際決策過程,改變執行軌跡,并最終提高任務成功率。
隨著 Agent 從一次性任務執行走向長期自主學習,如何讓它們從經驗中提煉、保存并復用高質量 Skill,將成為構建下一代智能體系統的重要問題。SkillLearnBench 為這一方向提供了首個系統化評測平臺,也為后續研究指出了清晰的改進路徑。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.