網易首頁 > 網易號 > 正文申請入駐

Agent 自己學 Skill，到底學得怎么樣？CMU 首個系統性基準來了

2026-05-10 20:29:06　來源: AI科技評論

廣東舉報

分享至

CMU和Amazon AGI推出首個Agent Skill持續學習系統性基準SkillLearnBench，把答案拆到了Skill 生成、調用、執行的每一層。

Skill 擴展了 AI Agent 的能力邊界，也讓“給 Agent 配一本技能手冊”的思路受到廣泛關注。開發者們開始嘗試把自己的經驗“蒸餾”為各式各樣的 Skill，讓 Agent 在執行任務中直接調用。

但熱度背后，一個根本矛盾始終存在：高質量 Skill 依賴人類專家手工編寫，而真實世界的任務千變萬化，任何預先準備好的技能庫都很難覆蓋所有情況。

于是，越來越多研究者開始把目光轉向Skill 的持續學習 (Skill Continual Learning)：讓 Agent 在執行任務的過程中自動積累 Skill，邊干邊學，而不是等人來寫。

但隨之而來的問題是：怎么去衡量不同持續學習方法的好壞？不同方法生成的 Skill 到底好在哪里、差在哪里？現有方法往往在各自的數據集和任務環境中進行驗證，缺乏統一評測環境；評估指標也大多停留在任務成功率層面，難以進一步區分失敗原因：是 Skill 本身質量的問題，還是 Agent 沒有正確調用 Skill？

為回答這些問題，來自 Carnegie Mellon University 和 Amazon AGI 的研究團隊提出了SkillLearnBench：首個面向 Agent Skill Continual Learning 的系統性評測基準，旨在統一環境下從 Skill 本身質量、Agent 執行軌跡、最終任務結果三個層面評估不同 Skill Continual Learning 方法的表現。

論文鏈接：https://arxiv.org/abs/2604.20087

開源代碼倉庫：https://github.com/cxcscmu/SkillLearnBench

網站：https://cxcscmu.github.io/SkillLearnBench/

SkillLearnBench:

首個 Agent Skill Continual Learning 的系統性基準

SkillLearnBench 的任務集圍繞一個核心標準構建：這些任務必須真正依賴 Skill，即 Agent 在沒有 Skill 的情況下難以穩定完成。每個任務都配有人類編寫的 Skill （Human-authored），并包含多個經過改寫的實例；這些實例通過改變輸入數據、參數、約束條件或任務表述，檢驗生成的 Skill 是否真正學到了可遷移的任務流程，而不是只對單個樣例有效。最終，SkillLearnBench 包含 20 個技能依賴任務、100 個任務實例，覆蓋軟件工程、信息檢索、數據分析等 6 大類別、15 個子領域。同時，每個實例都配有確定性的 verifier，用于判斷 Agent 是否真正完成任務。

SkillLearnBench 的另一個關鍵設計是構建了一套多維度評估框架。研究者認為，一個 Skill 的持續學習方法首先會生成 Skill 文檔本身，隨后會影響 Agent 的執行軌跡，最終才決定任務結果；如果只看最終準確率，就很難判斷方法到底失敗在哪一步。因此，SkillLearnBench 將評估拆成三個層面：

1. Skill Quality，即 Skill 本身寫得怎么樣。研究團隊提出了 coverage、executability 和 safety 三個指標去評估生成的 Skill：它是否覆蓋了解題所需的關鍵知識，是否足夠完整、前后邏輯一致且可復用，以及是否存在安全風險。

2. Trajectory Analysis，即 Agent 使用 Skill 后的執行軌跡是否合理。這里不僅看 Agent 是否調用了 Skill ，還會分析是否按照正確順序完成關鍵操作。

3. Task Outcome，即最終任務是否成功，以及完成任務消耗了多少 token。

實驗結果

論文在 SkillLearnBench 上評估了四種代表性的 Skill 持續學習方法：

1. One-Shot：單輪生成 Skill，不進行反饋修正。

2. Self Feedback：Agent 先生成 Skill 并嘗試任務，再根據自己的執行過程反思和修改 Skill 。

3. Teacher Feedback：引入外部 teacher，根據失敗情況給出修改建議，引導 Agent 多輪改進 Skill 。

4.Skill Creator：使用 Anthropic 官方的 skill-creator 引導 Agent 生成 Skill。

主要發現：持續學習方法能夠生成有效 Skill，但與人類編寫 Skill 仍有明顯差距

表 2 中的實驗結果顯示，所有持續學習方法整體上都優于 no-skill baseline。即便當前自動生成的 Skill 并不完美，它們仍然能夠為 Agent 提供一定幫助。

但是，這些方法生成的 Skill 與人類專家編寫的 Skill 之間仍存在顯著差距。no-skill baseline 的平均準確率約為 10.17%，人類專家編寫的 Skill 可達到 74.50%；相比之下，當前自動生成 Skill 的方法大多停留在 27%–31% 左右。也就是說，持續學習方法確實能夠提升 Agent 表現，但也只是填補了 no-skill baseline 與人類專家編寫 Skill 之間的一部分差距。

其中，Self Feedback 在平均準確率和 token 效率上表現相對最好；Skill Creator 的 Skill 調用率最高，但準確率并不總是最高。這說明一個重要問題：Skill 被頻繁調用，并不代表它真的包含了解題所需的核心邏輯。

更強的模型不一定生成更好的 Skill

一個反直覺發現是：更強的 LLM 并不穩定地產生更好的 Skill。較強模型有時會寫出更精確但也更“死板”的 Skill。這種 Skill 在當前實例上看似合理，但在任務實例變化后反而容易失效。相比之下，中等規模模型有時能在具體性和泛化性之間取得更好的平衡。

這說明 Skill 生成并不是單純靠擴大模型規模就能解決的問題。一個好的 Skill 不僅要“說得多、說得細”，還要抓住跨實例穩定存在的核心任務邏輯。

當前 Skill 持續學習方法更適合結構化任務，開放式任務仍是難點

論文還發現， Skill 持續學習方法能帶來多少收益，很大程度上取決于任務類型。如表 3 所示，在 Software Engineering 和 Productivity Tools 這類任務中，流程相對清晰、可復用，Skill 可以編碼較為穩定的操作步驟，帶來的提升更明顯。相反，在開放性更強、實例差異更大的任務中，持續學習方法生成的 Skill 可能反而過度約束了Agent。

這也帶來一個啟示：未來的 Agent Skill 生成方法不能只依賴統一的模板，而需要根據任務類型調整生成 Skill 的粒度、結構和調用方式。

外部反饋比自我反思更能帶來改進

在多輪 Skill 演化實驗中，Teacher Feedback 和 Self Feedback 呈現出明顯差異。如圖 4 所示，Self Feedback 在多輪反思后并不總能持續進步，甚至可能出現 recursive drift：Agent 反復修改 Skill，但沒有新的外部信息輸入，只是重組已有內容，結果逐漸偏離正確執行路徑。相反，Teacher Feedback 由于引入了外部指導，能夠在多輪中持續補充缺失信息，使 Skill 的 coverage 指標和對應任務表現逐步提升。

因此，有效的 Skill Continual Learning 方法需要引入可靠的外部信號，例如 verifier 反饋、專家反饋，而不是單純依賴模型自我反思。

總結

SkillLearnBench 不只是提出了一個新的 benchmark，也為 Agent Skill 持續學習的研究提供了一個更細粒度的分析框架：從 Skill 生成，到 Skill 調用，再到任務完成，逐層定位瓶頸。它系統性地回答了當前 Agent 研究中的一個關鍵問題：目前的持續學習方法是否真的能夠生成有效 Skill？

答案是：可以，但還遠遠不夠。

SkillLearnBench 的實驗結論也為后續研究帶來啟示：未來的 Skill 生成研究不能只關注 Skill 文檔是否寫得“豐富”，而要關注兩個更關鍵的問題。

第一，Skill 是否真正捕捉解決任務的核心邏輯。很多失敗并不是因為 Skill 格式不規范，或者寫得不夠長，而是因為它缺少關鍵計算步驟、參數選擇邏輯、驗證機制或工具調用細節。

第二，Skill 是否能被 Agent 正確發現、調用并執行。一個好的 Skill 不只是靜態文檔，也必須能進入 Agent 的實際決策過程，改變執行軌跡，并最終提高任務成功率。

隨著 Agent 從一次性任務執行走向長期自主學習，如何讓它們從經驗中提煉、保存并復用高質量 Skill，將成為構建下一代智能體系統的重要問題。SkillLearnBench 為這一方向提供了首個系統化評測平臺，也為后續研究指出了清晰的改進路徑。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.