<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude悄悄更新了Skills生成器,這絕對是一次史詩級升級。

      0
      分享至

        上周直播的時候,發現Anthropic的skills倉庫居然有更新了。

        點進去一看,然后居然發現了一個超級剛需的Skills迎來了更新。

        就是這個,甚至可以說是整個Skills生態的基石。

        Skill-creator。

        可以說,現在小龍蝦的能力能這么強,有一半的原因都要歸功于Skills,而這些Skills能被創造出來,幾乎都要歸功于這個母Skills,Skill-creator。

        我相信,任何一個看過我們過去關于Skills的文章,或者玩過Skills的朋友,都絕對不可能對這個Skill-creator陌生。

        簡單總結就是,這是Anthropic官方出的Skills生成器。

        你可以用嘴描述出你的需求,然后直接用Skill-creator,幫你做成一個Skill。

        如果有不了解的,可以去看一下我們過去的這一篇文章:自認為寫的還是比較詳細的。

        這周終于有時間,詳細翻了一下這次更新的Skill-creator的文檔,然后發現,這次真的可以說,是史詩級更新也不為過,強了太多太多了。

        

        所以我覺得,值得寫一篇文章,來給大家聊聊,這次Skill-creator更新的新特性和新功能。

        真的,所有的skills,都值得重新優化一遍。

        非常簡單的說,這次他們一口加了4個全新的能力,分別是:

        1. 評估系統,跑完直接告訴你這個skill到底行不行。

        2. 基準測試,把通過率、耗時、token用量,全都量化。

        3. 多代理并行測試,每個測試在干凈的環境里獨立跑,支持A/B盲評,結果不互相污染。

        4. 描述調優,可以自動幫你改skill描述,該觸發的觸發,不該觸發的就別亂觸發。

        之前的Skill-creator其實一直有個痛點,就是你生成完的Skills,其實是個黑盒,你完全不知道,這個Skills到底好不好用,它的質量怎么樣,它的觸發機制合不合理。

        用我們現代經常提的工業化體系來說,就是缺少了一個很重要的東西,評估機制。

        評估太重要了,一個好的評估,是真的可以引領方向的。

        而現在,新版的Skill-creator,直接把整個評估體系,全都補上了。

        我極力推薦大家,一定要更新到最新版。

        更新方式也究極無敵簡單,你直接把這段話,發給你的Agent就行,無論是Claude code、OpenClaw、OpenCode等等等等:

        https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本

        對,就這么一句話。

        然后你的Agent,就會自己去更新了。

        

        很快,就更新完了。

        

        我用一個案例,來給大家演示一下新版Skill-creator的能力。

        在之前有一篇文章中,我把Github上的yt-dlp做成了一個Skill,能從YouTube、B站等各種視頻網站下載視頻。

        

        但其實我們后來發現,光能下載視頻還不夠。

        我還希望拿到視頻鏈接之后,能直接生成文字版的講稿。

        而且如果是英文或其他語言的視頻,最好能直接給我中英雙語的講稿文檔。

        所以正好,借著這個機會,我就用skill-creator又搓了一個新skill。

        提示詞很簡單。

        我想創建一個skill,我希望能夠實現我給了一個視頻鏈接,它能夠把文字版的講稿發給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。

        它會先問你幾個問題,確認需求細節,然后開始幫你設計整個skill。

        

        大概3到5分鐘,這個Skill就設計完了。

        我拿一個OpenClaw創始人的YouTube訪談視頻來試一下。

        

        就給了一個YouTube的鏈接。

        五分鐘后,中文版的講稿就出來了。

        

        但是,其實有個問題。。。

        這一大坨文字堆在一起,字又小又擠。

        根本沒法看。

        這時候你就可以繼續對話,讓它給你優化,幫你改進這個skill。

        

        新版的Skill-creator,在改進的能力上,也有一些提升。

        改進之后的效果:

        

        幾乎完美。

        排版清晰,段落分明,這才像個文檔該有的樣子。

        但這還沒完。

        但這個時候,一個頭疼的問題就來了,我害怕我的skills觸發會打架。

        因為我現在有兩個skill都跟視頻鏈接相關。

        一個是yt-dlp,負責下載視頻到本地。

        一個是剛做的講稿生成,負責把視頻轉成文字。

        兩個skill的觸發條件都是給一個視頻鏈接,我害怕他們會打架,就是出現該觸發的不觸發,不該觸發的亂觸發。

        那就可以使用Skill-creator的評估體系了,讓它來幫你,進行優化skill描述。

        它受會先讀取你當前skill的描述,然后告訴你接下來要做四件事:

        

        自動生成兩組查詢,應觸發的10條和不應觸發的10條。

        設計得很有意思。

        故意把邊界情況都擺進去,逼模型在模糊地帶做判斷。

        

        然后,直接生成了一個網頁,讓你確認,特別牛逼。

        真的,我用到的時候都驚呆了。

        

        所有查詢排在界面里,每一條右邊有個開關,標著是否應該觸發。

        你可以逐條看一遍,覺得哪條判斷不對,直接關就行。

        打個比方,第三條這種情況,我不想讓它再觸發了,我就直接讓它關掉就行。

        

        然后還有不應該觸發的10條,我看了一遍,沒啥問題。

        

        所有的都確認之后,這時候,你點導出評估集,就完事啦。

        確認完樣本之后,優化循環會在后臺啟動,最多跑5輪迭代。

        每一輪做三件事來幫你進行測試和評估,整個過程大約需要10-20分鐘。

        

        它害會定期匯報進度。

        跑完之后就是你就能看到一個巨型表格。

        

        每一列是一個查詢樣本,每一行是一個迭代版本的描述。

        綠色勾對勾表示觸發成功,紅色叉×表示沒觸發。

        

        藍色列是測試集,其余是訓練集。

        

        它把樣本分成60%訓練集和40%測試集,在訓練集上迭代優化,最終用測試集上的表現來選,防止過擬合。

        跑完之后,最優的描述會自動寫回你的SKILL.md,全程不用你動手。

        Anthropic官方在自己6個文檔類skill上測了一下,5個觸發率都有提升。

        僅僅就用新版的skill-creator優化了一下,真的很牛逼。

        

        通過這一步,能大大提升你的Skills的觸發準確率。

        但觸發對了,并不等于OK。

        所以,你的Skill裝上并且能穩定觸發之后,到底在實際任務上表現如何,這個能力,也還要評估一下。

        我就繼續拿這個剛做好的skill來跑一遍,帶你大家看看整個過程。

        直接對剛剛那個skill進行一下評估。

        

        它會先把你的skill文件完整讀一遍,搞清楚這個skill的核心流程是什么。

        

        然后它會問你:你更想測哪個方面?

        我選了全面評估。

        它根據skill的功能,自動設計了三類測試場景,同時設計了量化驗收標準。

        

        確認方案之后,它一次性啟動了4個獨立子代理,同時跑。

        

        這次4個并行的Agent來進行測試,就很香了。

        以前其實你也可以做一些簡單的評估,但是,最大的問題,就是會按順序跑,一個跑完再跑下一個。

        但是大家都知道,上下文管理有多重要,前一個任務積累的上下文,會污染后一個的結果。

        你以為是skill的功勞,但,其實完全是對話歷史幫了忙。

        這次的評估,就對味了很多。

        每個代理都在完全干凈的環境里獨立運行,有自己的token 計數和時間指標。

        互相之間零交叉。

        結果更快,數據更干凈。

        等待的時候,它也順手就把量化評分腳本也準備好了。

        等測試結果回來之后,就直接自動檢查格式是否符合要求,很多小細節全都在里面。

        

        測試跑完,瀏覽器會里彈出評估查看頁面,有兩個標簽頁。

        輸出標簽頁,可以直接看每個測試用例的輸出。

        下面還有一個反饋框,你可以直接標注哪里不對、哪里需要改進。

        這些反饋會被存起來,下次改進skill的時候直接用。

        

        另一個是基準測試標簽頁,可以看有skill vs 無skill。

        通過量化對比,一目了然。

        

        數據這塊,也是極度量化。

        

        有skill的通過率100%,無skill基線9%,差值91.5%。

        費用上,有skill每次大約4000token,無skill1750token,差了2250。

        但這是skill帶來的額外消耗,對比產出的結果,值得。

        但評估的價值遠不止于此。

        Anthropic官方也舉了個例子。

        他們有個PDF skill,之前在處理表格時會出錯。

        Claude需要把文字精確的放在特定坐標上,但因為沒有明確的字段做引導,經常放歪。

        這個問題在評估過程中被發現,再進行修復改進定位邏輯后,問題就解決了。

        

        也就是說,找到問題之后不用從頭來過。

        評估結果會存在本地,下次你用skill-creator改進這個skill的時候,它會把上次標注的問題直接帶進去,針對那里改。

        改完再跑一遍評估,看有沒有提升。

        測試、發現、修、再測,這個循環是完整的。

        Anthropic把軟件開發的一些嚴謹做法,比如測試、基準、迭代改進等等,這次引入Skills的創作流程。

        真的,牛逼太多了。

        這絕對對于所有人來說,都是一個史詩級增強。

        你要知道,小龍蝦為什么那么強,能做那么多的事,其實真不是因為他本身有多牛逼,純粹是因為,它身上掛的SKills,太多了,那都是一個一個的技能包。

        可以說,Skills,就是整個Agent未來大繁榮生態的基石,而我自己,也一直極力的看好和強力推廣各種各樣的Skills。

        所以,我極度建議,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都進行優化和評估一遍。

        當然,你得先分清楚,你寫的Skills是哪種。

        因為本質上,Skills其實分兩種。

        第一種是能力提升型。

        就是教Claude做它本來不擅長的事。

        比如官方的前端設計skill、文檔創建skill,里面寫了大量技巧,是你光靠Prompt根本拿不到的效果。

        我們大多數人自己搓的skill,基本也都是這類。

        第二種官方叫編碼偏好型。

        就是告訴Claude按你的規矩來。

        Claude本身每一步都能做,但你的skill把這些步驟按你團隊的流程串起來了。

        比如一個會議紀要整理skill,按你們公司固定的格式,自動把錄音轉成帶行動項的文檔。

        或者一個周報生成skill,從各個平臺里拉數據,按你要的格式排好。

        你可以把這種,理解成一個Workflow,就是一個工作流。

        對這兩種類型,評估的方向會稍微不太一樣。

        對于能力提升型,測的是模型更新之后這個skill還有沒有存在的必要。

        用A/B測試對比,有skill和沒skill各跑一次。

        結果如果差不多,這個skill就可以退休了。

        

        編碼偏好型測的是另一件事,它有沒有老老實實按你的流程走?

        有沒有漏步驟?有沒有自作主張改了順序?有沒有忘了你特別說過的某個要求?

        所以會稍稍有一些區別,這個大家在自己評估的時候,可以注意一下。

        回頭想想,以前造完一個skill,其實也就是自我感覺良好。

        但說實話,全是黑盒,根本不知道該怎么評估。

        現在就舒服多了。

        評估跑一遍,數據擺出來,好不好用,一眼就見真章。

        所有的Skills,真的都值得重新優化和評估一遍。

        Skills生態。

        感覺又要迎來一波大繁榮了。

        以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

        >/ 作者:卡茲克、可達

        >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1955年解放軍授銜儀式消息傳至海外,麥克阿瑟翻閱報紙后站起身來,感慨地說:除了彭德懷還有九位元帥?朝鮮三年我們遭遇的是怎樣的對手?

      1955年解放軍授銜儀式消息傳至海外,麥克阿瑟翻閱報紙后站起身來,感慨地說:除了彭德懷還有九位元帥?朝鮮三年我們遭遇的是怎樣的對手?

      起飛做故事
      2026-05-14 20:08:40
      天文學家認為:6500光年外的創生之柱,早在1000年前就塌了

      天文學家認為:6500光年外的創生之柱,早在1000年前就塌了

      觀察宇宙
      2026-05-15 21:24:43
      走出人民大會堂的第一人稱視頻 + 馬斯克給雷軍送了一個 wink

      走出人民大會堂的第一人稱視頻 + 馬斯克給雷軍送了一個 wink

      新浪財經
      2026-05-15 23:42:56
      廣東省紀委監委通報:何寧卡被查

      廣東省紀委監委通報:何寧卡被查

      鄉知鄉見
      2026-05-15 23:53:41
      特朗普離京,我國送別規格相當高,普京訪華蓄勢待發,不簡單

      特朗普離京,我國送別規格相當高,普京訪華蓄勢待發,不簡單

      DS北風
      2026-05-15 19:46:06
      知名女主持人自曝痛到當場求饒,要求立即終止!醫生提醒:這些人不要盲目跟風

      知名女主持人自曝痛到當場求饒,要求立即終止!醫生提醒:這些人不要盲目跟風

      上海約飯局
      2026-05-13 15:05:22
      基本盤被指用來嘲諷有愛國情懷的人

      基本盤被指用來嘲諷有愛國情懷的人

      映射生活的身影
      2026-05-13 21:13:11
      妻子晉升副總和我離婚,七天后她住院,我只回了一句話:新婚快樂

      妻子晉升副總和我離婚,七天后她住院,我只回了一句話:新婚快樂

      千秋文化
      2026-05-11 20:43:27
      守田英正自宣離開葡體:我永遠不會為葡萄牙的其他俱樂部效力

      守田英正自宣離開葡體:我永遠不會為葡萄牙的其他俱樂部效力

      懂球帝
      2026-05-16 01:54:03
      馬刺G6淘汰森林狼!哈珀+首發齊爆,森林狼僅靠2替補,首發太迷了

      馬刺G6淘汰森林狼!哈珀+首發齊爆,森林狼僅靠2替補,首發太迷了

      籃球資訊達人
      2026-05-16 12:28:37
      200多只龍頭集體走熊!中國中免破位,賽力斯創新低,注意避坑

      200多只龍頭集體走熊!中國中免破位,賽力斯創新低,注意避坑

      財經智多星
      2026-05-16 09:08:54
      聞泰科技上演極致反轉鬧劇,從硬剛到退市警告,誰搞砸了這場局

      聞泰科技上演極致反轉鬧劇,從硬剛到退市警告,誰搞砸了這場局

      鍋鍋愛歷史
      2026-05-16 02:03:16
      中方當面送行,特朗普登機前,稱中美達成一個大交易,俄羅斯緊盯

      中方當面送行,特朗普登機前,稱中美達成一個大交易,俄羅斯緊盯

      觸摸史跡
      2026-05-16 11:58:04
      廠妹一天的生活

      廠妹一天的生活

      微微熱評
      2026-05-12 11:52:49
      漲的是車價,要的是老命

      漲的是車價,要的是老命

      虎嗅APP
      2026-05-16 00:36:12
      時隔9年重返西決!文班19+6+3封蓋打爆雙塔,太子32分客場擒狼

      時隔9年重返西決!文班19+6+3封蓋打爆雙塔,太子32分客場擒狼

      釘釘陌上花開
      2026-05-16 12:16:54
      中塔正式簽署“永久”條約,中國西大門牢牢焊死,鄰國變成鐵桿

      中塔正式簽署“永久”條約,中國西大門牢牢焊死,鄰國變成鐵桿

      孤城落葉
      2026-05-15 07:51:38
      做好準備硬扛30年,和日本當年一模一樣,還清房貸經濟才有起色

      做好準備硬扛30年,和日本當年一模一樣,還清房貸經濟才有起色

      阿離家居
      2026-05-09 10:05:46
      空軍一號飛入中國領空后,末日飛機調頭降落日本,不敢離總統太遠

      空軍一號飛入中國領空后,末日飛機調頭降落日本,不敢離總統太遠

      華史談
      2026-05-16 09:48:24
      跑不死!泰山小將何思凡補時一條龍爆桿:他拿球沙特球員抱頭投降

      跑不死!泰山小將何思凡補時一條龍爆桿:他拿球沙特球員抱頭投降

      林子說事
      2026-05-16 08:59:21
      2026-05-16 12:59:00
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      517文章數 648關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

      頭條要聞

      30歲女子用爬樓機鍛煉幾分鐘摔倒 搶救110分鐘后身亡

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      時尚
      家居
      教育
      手機

      藝術要聞

      19位當代畫家油畫作品欣賞

      0緩震的鞋,怎么就火了?

      家居要聞

      110㎡淡而有致的生活表達

      教育要聞

      市教委主任點贊!京城名校長不讓孩子“你上我下的競爭”牛在哪里?

      手機要聞

      CounterPoint稱三星Galaxy S26系列手機首發全球銷量增長13%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV中文无码乱人伦在线观看 | 欧美亚韩国产| 97精品伊人久久久大香线蕉| 永久免费精品性爱网站| 宝鸡市| 亚洲午夜无码久久yy6080| 国产精品亚洲二区在线播放| 一本色道国产在线观看二区| 免费看久久精品99| 欧洲精品不卡1卡2卡三卡| 国产精品无码一区二区三区| 粉嫩一区二区三区粉嫩视频| 国产精品老熟女400部| 人伦片无码中文字幕| 蜜桃精品免费久久久久影院| 久在草影院| 装睡被陌生人摸出水好爽| 99ri精品视频在线观看播放| 国内精品久久久久久影院| 国产不卡一区二区在线| 爆乳一区二区| 插鸡鸡视频| 国内精品久久久久久久齐齐| 国产无遮挡性视频免费看| 手机| 最新精品亚洲成a人在线观看| 亚洲高清国产拍精品熟女| 非洲黑人最猛性xxxx交| 日本狂喷奶水在线播放212| 亚洲日韩v无码中文字幕| 欧美人精品人妻在线| 美女毛片一区二区三区四区| 日韩精品无码久久久久久| 精品无码一区二区三区av| 最新国产精品久久精品| 亚洲爱婷婷色婷婷五月 | 亚洲a片成人无码久久精品色欲| 中文字幕乱码人妻一区二区三区| 国产精品美女www爽爽爽视频| 欧美精品福利| 国产在线精品欧美日韩电影|