<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Agent 自己學 Skill,到底學得怎么樣?CMU 首個系統性基準來了

      0
      分享至


      CMU和Amazon AGI推出首個Agent Skill持續學習系統性基準SkillLearnBench,把答案拆到了Skill 生成、調用、執行的每一層。

      Skill 擴展了 AI Agent 的能力邊界,也讓“給 Agent 配一本技能手冊”的思路受到廣泛關注。開發者們開始嘗試把自己的經驗“蒸餾”為各式各樣的 Skill,讓 Agent 在執行任務中直接調用。

      但熱度背后,一個根本矛盾始終存在:高質量 Skill 依賴人類專家手工編寫,而真實世界的任務千變萬化,任何預先準備好的技能庫都很難覆蓋所有情況。

      于是,越來越多研究者開始把目光轉向Skill 的持續學習 (Skill Continual Learning):讓 Agent 在執行任務的過程中自動積累 Skill,邊干邊學,而不是等人來寫。

      但隨之而來的問題是:怎么去衡量不同持續學習方法的好壞?不同方法生成的 Skill 到底好在哪里、差在哪里?現有方法往往在各自的數據集和任務環境中進行驗證,缺乏統一評測環境;評估指標也大多停留在任務成功率層面,難以進一步區分失敗原因:是 Skill 本身質量的問題,還是 Agent 沒有正確調用 Skill?

      為回答這些問題,來自 Carnegie Mellon University 和 Amazon AGI 的研究團隊提出了SkillLearnBench首個面向 Agent Skill Continual Learning 的系統性評測基準,旨在統一環境下從 Skill 本身質量、Agent 執行軌跡、最終任務結果 三個層面評估不同 Skill Continual Learning 方法的表現。


      論文鏈接:https://arxiv.org/abs/2604.20087

      開源代碼倉庫:https://github.com/cxcscmu/SkillLearnBench

      網站:https://cxcscmu.github.io/SkillLearnBench/

      01


      SkillLearnBench:

      首個 Agent Skill Continual Learning 的系統性基準

      SkillLearnBench 的任務集圍繞一個核心標準構建:這些任務必須真正依賴 Skill,即 Agent 在沒有 Skill 的情況下難以穩定完成。每個任務都配有人類編寫的 Skill (Human-authored),并包含多個經過改寫的實例;這些實例通過改變輸入數據、參數、約束條件或任務表述,檢驗生成的 Skill 是否真正學到了可遷移的任務流程,而不是只對單個樣例有效。最終,SkillLearnBench 包含 20 個技能依賴任務、100 個任務實例,覆蓋軟件工程、信息檢索、數據分析等 6 大類別、15 個子領域。同時,每個實例都配有確定性的 verifier,用于判斷 Agent 是否真正完成任務。


      SkillLearnBench 的另一個關鍵設計是構建了一套多維度評估框架。研究者認為,一個 Skill 的持續學習方法首先會生成 Skill 文檔本身,隨后會影響 Agent 的執行軌跡,最終才決定任務結果;如果只看最終準確率,就很難判斷方法到底失敗在哪一步。因此,SkillLearnBench 將評估拆成三個層面:

      1. Skill Quality,即 Skill 本身寫得怎么樣。研究團隊提出了 coverage、executability 和 safety 三個指標去評估生成的 Skill:它是否覆蓋了解題所需的關鍵知識,是否足夠完整、前后邏輯一致且可復用,以及是否存在安全風險。

      2. Trajectory Analysis,即 Agent 使用 Skill 后的執行軌跡是否合理。這里不僅看 Agent 是否調用了 Skill ,還會分析是否按照正確順序完成關鍵操作。

      3. Task Outcome,即最終任務是否成功,以及完成任務消耗了多少 token。

      02


      實驗結果

      論文在 SkillLearnBench 上評估了四種代表性的 Skill 持續學習方法:

      1. One-Shot:單輪生成 Skill,不進行反饋修正。

      2. Self Feedback:Agent 先生成 Skill 并嘗試任務,再根據自己的執行過程反思和修改 Skill 。

      3. Teacher Feedback:引入外部 teacher,根據失敗情況給出修改建議,引導 Agent 多輪改進 Skill 。

      4.Skill Creator:使用 Anthropic 官方的 skill-creator 引導 Agent 生成 Skill。



      主要發現:持續學習方法能夠生成有效 Skill,但與人類編寫 Skill 仍有明顯差距

      表 2 中的實驗結果顯示,所有持續學習方法整體上都優于 no-skill baseline。即便當前自動生成的 Skill 并不完美,它們仍然能夠為 Agent 提供一定幫助。

      但是,這些方法生成的 Skill 與人類專家編寫的 Skill 之間仍存在顯著差距。no-skill baseline 的平均準確率約為 10.17%,人類專家編寫的 Skill 可達到 74.50%;相比之下,當前自動生成 Skill 的方法大多停留在 27%–31% 左右。也就是說,持續學習方法確實能夠提升 Agent 表現,但也只是填補了 no-skill baseline 與人類專家編寫 Skill 之間的一部分差距。

      其中,Self Feedback 在平均準確率和 token 效率上表現相對最好;Skill Creator 的 Skill 調用率最高,但準確率并不總是最高。這說明一個重要問題:Skill 被頻繁調用,并不代表它真的包含了解題所需的核心邏輯。

      更強的模型不一定生成更好的 Skill

      一個反直覺發現是:更強的 LLM 并不穩定地產生更好的 Skill。較強模型有時會寫出更精確但也更“死板”的 Skill。這種 Skill 在當前實例上看似合理,但在任務實例變化后反而容易失效。相比之下,中等規模模型有時能在具體性和泛化性之間取得更好的平衡。

      這說明 Skill 生成并不是單純靠擴大模型規模就能解決的問題。一個好的 Skill 不僅要“說得多、說得細”,還要抓住跨實例穩定存在的核心任務邏輯。

      當前 Skill 持續學習方法更適合結構化任務,開放式任務仍是難點

      論文還發現, Skill 持續學習方法能帶來多少收益,很大程度上取決于任務類型。如表 3 所示,在 Software Engineering 和 Productivity Tools 這類任務中,流程相對清晰、可復用,Skill 可以編碼較為穩定的操作步驟,帶來的提升更明顯。相反,在開放性更強、實例差異更大的任務中,持續學習方法生成的 Skill 可能反而過度約束了Agent。

      這也帶來一個啟示:未來的 Agent Skill 生成方法不能只依賴統一的模板,而需要根據任務類型調整生成 Skill 的粒度、結構和調用方式。


      外部反饋比自我反思更能帶來改進

      在多輪 Skill 演化實驗中,Teacher Feedback 和 Self Feedback 呈現出明顯差異。如圖 4 所示,Self Feedback 在多輪反思后并不總能持續進步,甚至可能出現 recursive drift:Agent 反復修改 Skill,但沒有新的外部信息輸入,只是重組已有內容,結果逐漸偏離正確執行路徑。相反,Teacher Feedback 由于引入了外部指導,能夠在多輪中持續補充缺失信息,使 Skill 的 coverage 指標和對應任務表現逐步提升。

      因此,有效的 Skill Continual Learning 方法需要引入可靠的外部信號,例如 verifier 反饋、專家反饋,而不是單純依賴模型自我反思。


      03


      總結

      SkillLearnBench 不只是提出了一個新的 benchmark,也為 Agent Skill 持續學習的研究提供了一個更細粒度的分析框架:從 Skill 生成,到 Skill 調用,再到任務完成,逐層定位瓶頸。它系統性地回答了當前 Agent 研究中的一個關鍵問題:目前的持續學習方法是否真的能夠生成有效 Skill?

      答案是:可以,但還遠遠不夠。

      SkillLearnBench 的實驗結論也為后續研究帶來啟示:未來的 Skill 生成研究不能只關注 Skill 文檔是否寫得“豐富”,而要關注兩個更關鍵的問題。

      第一,Skill 是否真正捕捉解決任務的核心邏輯。很多失敗并不是因為 Skill 格式不規范,或者寫得不夠長,而是因為它缺少關鍵計算步驟、參數選擇邏輯、驗證機制或工具調用細節。

      第二,Skill 是否能被 Agent 正確發現、調用并執行。一個好的 Skill 不只是靜態文檔,也必須能進入 Agent 的實際決策過程,改變執行軌跡,并最終提高任務成功率。

      隨著 Agent 從一次性任務執行走向長期自主學習,如何讓它們從經驗中提煉、保存并復用高質量 Skill,將成為構建下一代智能體系統的重要問題。SkillLearnBench 為這一方向提供了首個系統化評測平臺,也為后續研究指出了清晰的改進路徑。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      福建省人大常委會黨組副書記、副主任林寶金當選省總工會主席

      福建省人大常委會黨組副書記、副主任林寶金當選省總工會主席

      澎湃新聞
      2026-05-15 12:22:30
      余承東公布尊界S800最新成績:4月上險量超1100臺

      余承東公布尊界S800最新成績:4月上險量超1100臺

      CNMO科技
      2026-05-14 17:26:05
      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      巔峰時期的QQ有多“狂”?2008年,騰訊竟打算用Q幣給員工發工資

      荊楚寰宇文樞
      2026-05-14 23:20:07
      直擊!廣州暴雨水浸街,外賣小哥水中撈人...

      直擊!廣州暴雨水浸街,外賣小哥水中撈人...

      廣州樓市發布
      2026-05-15 15:55:26
      馬筱梅曬兒子接新代言!小楊阿姨替小玥兒姐弟發言,張蘭回應

      馬筱梅曬兒子接新代言!小楊阿姨替小玥兒姐弟發言,張蘭回應

      阿纂看事
      2026-05-15 17:33:40
      孟子義和李昀銳全程零互動、綜藝不同隊、行程全錯開,昀牽孟繞真的be了嗎?

      孟子義和李昀銳全程零互動、綜藝不同隊、行程全錯開,昀牽孟繞真的be了嗎?

      情感大頭說說
      2026-05-15 14:16:58
      iPhone 17 Pro降價2000元引爆熱搜:實際疊加以舊換新才能做到

      iPhone 17 Pro降價2000元引爆熱搜:實際疊加以舊換新才能做到

      大唐
      2026-05-15 15:08:56
      雷軍開打價格戰,小米廉價車型要來了

      雷軍開打價格戰,小米廉價車型要來了

      科技頭版Pro
      2026-05-14 14:36:27
      趁著大半個美國高層都在北京,坐鎮白宮的萬斯“殺伐果斷”

      趁著大半個美國高層都在北京,坐鎮白宮的萬斯“殺伐果斷”

      健身狂人
      2026-05-15 01:35:03
      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      姆巴佩:沒首發是因為教練跟我說,我是他的第四前鋒

      懂球帝
      2026-05-15 07:03:08
      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      懂球帝
      2026-05-15 15:09:09
      1959年,被割舌農奴緊盯青石板發抖,隊員掀開石板瞬間心頭一震

      1959年,被割舌農奴緊盯青石板發抖,隊員掀開石板瞬間心頭一震

      小影的娛樂
      2026-05-15 17:38:31
      剛說要跟中國好好相處,轉頭就收3個噩耗,特朗普極速回國

      剛說要跟中國好好相處,轉頭就收3個噩耗,特朗普極速回國

      漫川舟船
      2026-05-15 18:02:48
      韓情報:為了換取平壤的子彈與士兵,莫斯科付出138億美元?

      韓情報:為了換取平壤的子彈與士兵,莫斯科付出138億美元?

      閆樹軍論評
      2026-05-15 19:04:12
      鄭強翻車,翻得一點也不冤!

      鄭強翻車,翻得一點也不冤!

      梳子姐
      2026-05-13 12:19:44
      赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

      赫魯曉夫政變全過程!朱可夫在會議中掏出手槍,當眾把貝利亞扣押

      云霄紀史觀
      2026-05-09 03:25:07
      完全被壓制!北京打得艱難,半場落后12分,周琦2分,恐難贏上海

      完全被壓制!北京打得艱難,半場落后12分,周琦2分,恐難贏上海

      萌蘭聊個球
      2026-05-15 20:38:35
      第一次感受到“荔枝核的威力”,泡水里20天,長成“粉盆栽”

      第一次感受到“荔枝核的威力”,泡水里20天,長成“粉盆栽”

      美家指南
      2026-05-15 15:27:43
       著名皮膚性病學家王仁林逝世,享年101歲

      著名皮膚性病學家王仁林逝世,享年101歲

      澎湃新聞
      2026-05-15 18:48:26
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      肖茲探秘說
      2026-05-15 13:42:33
      2026-05-15 21:19:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      伊朗外長警告阿聯酋 指責其直接參與對伊朗的軍事行動

      頭條要聞

      伊朗外長警告阿聯酋 指責其直接參與對伊朗的軍事行動

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      時尚
      藝術
      房產
      手機
      本地

      日常衣服千萬不用買太貴,準備幾件白色T恤,清爽百搭又實用

      藝術要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      手機要聞

      到手6999起!iPhone 17 Pro降價2000元,庫克早有暗示

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲十八禁| 亚洲男人的天堂精品一区二区 | 日本黄色电影网址| 成年无码av片| 国产91视频| 亚洲精品无码不卡| aa级毛片毛片免费观看久| 日韩成人片| 色综合久久久久无码专区| 一区二区三区精品偷拍| 91一区二区| 人妻?无码av| 亚洲成a人片在线观看导航| 国产精品午夜福利合集| 手机在线看永久av片免费| 无套中出丰满人妻无码| 国产av无码专区亚洲a∨毛片| 美女内射毛片在线看免费人动物| 色网站在线免费观看| 亚洲 制服 丝袜 无码| 国产在线欧美一区二区| 无码久久流水呻吟| 偷拍av网| 9丨精品国产高清自在线看| 夜夜操COM| 亚洲bt欧美bt精品| 日韩av无码精品人妻系列 | 一本大道香蕉高清久久| 欧美丰满大爆乳波霸奶水多| 日韩一区二区三区av在线| 亚洲男人网| 亚洲精品国产精品国自产观看| 91麻豆亚洲国产成人久久| 欧美精品一国产成人性影视| 黄色A级国产免费大片视频| 91网站免费在线观看| 欧美人与动牲交片免费| 最新无码专区在线视频动态| 俄罗斯小屁孩cao大人免费 | 国产精品久久蜜臀av| A片精品|