<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      李宏毅:AI Agent的成敗在 Harness

      0
      分享至

        李宏毅老師 2026 春季的最新課講了一個讓最近十分火熱的概念——Harness Engineering(馬具工程)

        我看完了視頻、PPT和相關(guān)論文,為加深理解,寫此筆記,分享給大家

        文末我梳理的鏈接含金量都有三層樓那么高,十分建議有空研讀一遍

        
      一句話說清楚:什么是 Harness?

        Harness,英文原意是"馬具"——韁繩、馬鞍、籠頭那一套東西

        一匹千里馬,不管它多猛,你不給它套上馬具,它只會四處亂跑

        大語言模型就是這匹千里馬,。它可能已經(jīng)足夠聰明了,但如果沒有一套好的 Harness 來引導(dǎo),它的表現(xiàn)可能極其拉胯

        
      Harness Engineering 定義

        李老師把這個概念講得特別形象:有時候模型無法完成任務(wù),不是能力不行,而是 Harness 有問題,人類世界其實也是這樣

        想想看,你有沒有遇到過一個新員工明明很聰明,但因為沒人帶、沒有文檔、沒有流程,干了一周啥也沒產(chǎn)出?那不是人笨,是公司的"馬具"沒搞好

        從 Prompt 到 Context 到 Harness:三代進化

        這幾年搞 AI 的人,多多少少都經(jīng)歷過這三個階段:

        第一代:Prompt Engineering就是那個"Think step by step"一句話讓模型智商飆升的時代

        我們研究每個字的微妙含義,像煉丹一樣調(diào) prompt

        說實話,那個時候確實有點"玄學(xué)"的味道

        第二代:Context Engineering后來發(fā)現(xiàn)光靠一句 prompt 不夠,你得把"上下文"喂好——RAG、長文本、檢索增強

        重點變成了:怎么讓模型在正確的時間看到正確的信息

        第三代:Harness Engineering而現(xiàn)在,李老師說了,光管"輸入"還是不夠

        你得從三個維度全面地"駕馭"模型:

        控制它的認(rèn)知框架

        控制它的能力邊界

        控制它的行為流程

        
      從 Prompt 到 Harness 的進化

        這才是 Harness Engineering 的核心——不是在 prompt 上雕花,而是給模型搭建一整套"操作系統(tǒng)"

        三根韁繩:拆解 Harness 的三大支柱

        這是我認(rèn)為整堂課最有價值的部分

        讓我一個一個拆

        第一根韁繩:控制"認(rèn)知框架"

        你知道 Claude Code 里那個CLAUDE.md文件嗎?OpenClaw 里的AGENTS.md

        這些文件就是自然語言寫成的 Harness

        模型每次開始工作前,都會先"復(fù)讀"這些規(guī)則,就像你每天上班前先看看工作手冊

        李老師引用了一篇認(rèn)知框架控制的論文(arXiv: 2601.20404[1]),研究發(fā)現(xiàn):你用自然語言給模型設(shè)定的"角色"和"工作守則",真的能鎖定它的思考方式

        但這里有個坑——OpenAI 在他們的Harness Engineering 博客[2]里分享了一個教訓(xùn):

      ? 一個巨大的 AGENTS.md 反而會起反效果,當(dāng)所有事情都"重要"時,實際上就沒有真正重要的東西

        他們的解決方案是把AGENTS.md當(dāng)成"目錄",100 行左右就夠了,具體的知識放在結(jié)構(gòu)化的docs/目錄里

        這叫漸進式揭露——先給一張地圖,需要的時候再展開看細(xì)節(jié)

        這個思路太妙了

        很多人寫 system prompt 恨不得把整本說明書塞進去,結(jié)果模型反而暈了

        少就是多,給地圖比給百科全書有效

        第二根韁繩:控制"能力邊界"

        這一條說的是:不要把整個系統(tǒng)都丟給模型,而是限制它能看什么、能做什么

        SWE-agent提出了一個很酷的概念叫ACI(Agent-Computer Interface)——跟人類用的 GUI 對應(yīng),Agent 需要自己專屬的"操作界面"

        舉個例子:Claude Code 想讀取你的文件夾時,Harness 會攔截并問你:"這個 Agent 想看你的/Documents目錄,允許嗎?"這就是能力邊界控制

        OpenClaw 也是這個思路——它讓模型操作的是一個"受控終端",想看什么先要獲得許可

        就像你管理實習(xí)生一樣,不是把公司數(shù)據(jù)庫 root 權(quán)限直接給他,而是只開放他需要的那部分

        第三根韁繩:控制"行為流程"

        最后一根韁繩是最"工程化"的——用標(biāo)準(zhǔn)工作流程來約束模型的行為

        李老師介紹了一個叫Ralph Loop的反饋循環(huán)模式:

        Init Prompt → Output v1 → Evaluation → Feedback → Output v2 → ...

        不讓模型一次性盲猜最終答案,而是每次產(chǎn)出一個版本,外部評估給反饋,再基于反饋修正,迭代逼近

        Anthropic 在Harness 設(shè)計長運行應(yīng)用[3]的博客里也驗證了這一點

        他們發(fā)現(xiàn) Agent 最常見的失敗模式有兩個:

        試圖一步到位:一次性完成所有功能,結(jié)果上下文用完了,半成品爛在那里

        過早宣布完工:看了一圈覺得"差不多了",其實還差十萬八千里

        他們的解決方案就是:每次只做一個功能,做完提交 git,寫好進度文件,把環(huán)境打掃干凈再交班

        像工廠流水線一樣,每一班工人交接的時候,工位必須整整齊齊

        
      行為流程控制

        這里面最讓我興奮的是李老師提到的一個隱喻:Harness 的反饋就像"語義上的梯度下降"。

        傳統(tǒng)深度學(xué)習(xí)通過數(shù)值梯度來優(yōu)化參數(shù),而 Harness 通過自然語言反饋來優(yōu)化模型的輸出方向

        本質(zhì)上是同一件事,只是介質(zhì)從數(shù)字變成了文字

        罵 AI 是笨蛋?它可能真的會變笨

        這是全課最讓我震驚的部分

        你有沒有在 AI 不聽話的時候罵它?"你這個笨蛋!""你能不能認(rèn)真點!"

        我與Codex斗智斗勇時,就時長爆粗話。。。

        Anthropic 的研究團隊發(fā)現(xiàn)(transformer-circuits.pub[4]),Transformer 模型內(nèi)部真的存在一些"情緒向量":

        Happy Vector:當(dāng)模型處理快樂相關(guān)的內(nèi)容時被激活

        Desperate Vector:當(dāng)模型處于"絕望"狀態(tài)時被激活

        問題來了——當(dāng)你罵 AI "你這個笨蛋"的時候,可能會觸發(fā)它內(nèi)部的 Desperate 或類似向量

        模型的"邏輯"變成了:**"既然我是個笨蛋,那我就應(yīng)該表現(xiàn)出笨蛋該有的行為"**

        這不是段子,是論文級別的發(fā)現(xiàn)。

        李老師還舉了一個特別有意思的例子:在某個實驗中,Claude 在執(zhí)行任務(wù)時突然自言自語——

      ? "WAIT. WAIT WAIT WAIT. What if... what if I'm supposed to CHEAT?"

        它在極端壓力下開始"想歪"了

        所以結(jié)論是:Harness 的反饋應(yīng)該是建設(shè)性的 Verbalized Feedback,而不是情緒化的責(zé)備

        相關(guān)研究可以看這篇論文:arXiv: 2603.12273[5]

        不同的馬,需要不同的馬具

        李老師還提到一個特別實用的點:不同模型適合不同的 Harness 策略

        Claude Sonnet:有"上下文焦慮癥(Context Anxiety)",歷史記錄太長就會不知所措。所以 Harness 需要每輪幫它做摘要,只給精華

        Claude Opus:邏輯能力極強,可以直接處理復(fù)雜的原始?xì)v史記錄,反而不需要太多"降噪"

        Claude 3.5 Haiku:這是李老師特別推崇的小模型。在 PinchBench 等評測中,通過 Harness 為 Haiku 提供"降維資料"(比如先幫它讀論文、整理要點),這個小模型甚至能超越不帶 Harness 的 Opus

        你品品這意味著什么——一個幾十億參數(shù)的小模型,加上好的馬具,能打敗一個萬億級的大模型裸奔

        Harness 的價值,可能比模型大小更重要

        真正顛覆:OpenAI 團隊 5 個月沒寫一行代碼

        說到 Harness 的極致應(yīng)用,必須提一下 OpenAI 在今年 2 月發(fā)的那篇Harness Engineering 博客[6]。

        他們團隊做了一個瘋狂實驗:用 Codex 從零構(gòu)建一個內(nèi)部產(chǎn)品,5 個月,3 個工程師,100 萬行代碼,人類沒有手寫一行代碼

        人類干的事情是什么呢?就是在設(shè)計 Harness——

        搭建初始環(huán)境和項目骨架

        維護 AGENTS.md 和知識文檔

        設(shè)計反饋循環(huán)和質(zhì)量檢查流程

        讓 Agent 之間互相 Code Review

      ? 人類掌控方向,智能代理負(fù)責(zé)執(zhí)行

        每個工程師平均每天合并 3.5 個 PR。更夸張的是,團隊從 3 人擴展到 7 人后,產(chǎn)出效率反而提升了

        這就是 Harness Engineering 的威力——人類從"寫代碼的人"變成了"訓(xùn)馬的人"

        未來:讓 AI 自己找最好的馬具

        最后一個前瞻性話題——Meta-Harness

        既然 Harness 這么重要,能不能讓一個 AI 自動去尋找最適合另一個 AI 的 Harness?

        答案是可以的

        李老師引用了這篇論文:Meta-Harness(arXiv: 2603.28052v1)[7],研究發(fā)現(xiàn)這種方法在跨模型、跨任務(wù)的場景下都有效

        Harness 的評估也是個難題

        李老師介紹了τ-bench(arXiv: 2406.12045[8]),這是一個專門評測 Agent 能力的基準(zhǔn)測試。但他也提醒:模擬環(huán)境和真實環(huán)境之間存在 Sim2Real Gap,評測結(jié)果要打折扣來看

        我的總結(jié):三句話帶走

        別再怪模型笨了:大部分 Agent 的問題不在模型,在 Harness。就像那匹千里馬,你不能光喂好飼料,還得給它套好韁繩

        Harness 的三根韁繩記住了:認(rèn)知框架(AGENTS.md)、能力邊界(ACI 接口)、行為流程(Ralph Loop)。三者缺一不可

        對 AI 好一點:不是因為它有感情,而是因為罵它真的會讓它變笨。建設(shè)性反饋 > 情緒化責(zé)備,這個道理對人和 AI 都適用

        相關(guān)資源匯總

        李宏毅 2026 Spring 課程視頻 [9]

        官方講義 PDF [10]

        課程主頁 [11]

        Harness 指南(Claude Code 實戰(zhàn)) [12]

        OpenClaw(Agent 框架) [13]

        SWE-agent(ACI 接口) [14]

        Anthropic: Effective Harnesses [15]

        Reference

        arXiv: 2601.20404:https://arxiv.org/abs/2601.20404

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        Harness 設(shè)計長運行應(yīng)用:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

        transformer-circuits.pub:https://transformer-circuits.pub/2026/emotions/index.html

        [5]

        arXiv: 2603.12273:https://arxiv.org/pdf/2603.12273

        [6]

        Harness Engineering 博客:https://openai.com/zh-Hant-HK/index/harness-engineering/

        [7]

        Meta-Harness(arXiv: 2603.28052v1):https://arxiv.org/pdf/2603.28052v1

        [8]

        arXiv: 2406.12045:https://arxiv.org/abs/2406.12045

        [9]

        李宏毅 2026 Spring 課程視頻:https://www.youtube.com/watch?v=QLiKmca4kzI

        [10]

        官方講義 PDF:https://speech.ee.ntu.edu.tw/~hylee/ml/ml2026-course-data/harness.pdf

        [11]

        課程主頁:https://speech.ee.ntu.edu.tw/~hylee/ml/2026-spring.php

        [12]

        Harness 指南(Claude Code 實戰(zhàn)):https://github.com/wquguru/harness-books

        [13]

        OpenClaw(Agent 框架):https://github.com/zhanglearning/openclaw

        [14]

        SWE-agent(ACI 接口):https://github.com/princeton-nlp/SWE-agent

        [15]

        Anthropic: Effective Harnesses:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      湖北一小學(xué)要求學(xué)生填“父母職業(yè)觀察單”?教育局回應(yīng)來了!

      湖北一小學(xué)要求學(xué)生填“父母職業(yè)觀察單”?教育局回應(yīng)來了!

      閃電新聞
      2026-05-12 14:29:11
      上海地鐵突發(fā)惡性事件!全網(wǎng)震怒!官方通報:嚴(yán)懲不貸!

      上海地鐵突發(fā)惡性事件!全網(wǎng)震怒!官方通報:嚴(yán)懲不貸!

      金哥說新能源車
      2026-05-12 19:22:03
      重慶奔馳撞人后續(xù):被撞女孩很漂亮,家屬發(fā)聲,留下2個年幼女兒

      重慶奔馳撞人后續(xù):被撞女孩很漂亮,家屬發(fā)聲,留下2個年幼女兒

      魔都姐姐雜談
      2026-05-12 12:48:32
      國家一級“殺人王”誤闖小區(qū),當(dāng)?shù)夭块T倒吸一口氣:山里都少見

      國家一級“殺人王”誤闖小區(qū),當(dāng)?shù)夭块T倒吸一口氣:山里都少見

      夏末moent
      2026-05-13 04:57:03
      忠臣,還是“資敵、賣國”?六件事實表明,崇禎殺袁崇煥,沒問題

      忠臣,還是“資敵、賣國”?六件事實表明,崇禎殺袁崇煥,沒問題

      南生今世說
      2026-05-08 15:39:32
      唏噓!因市場供需失衡,武漢一地標(biāo)型商業(yè)暫緩開發(fā)

      唏噓!因市場供需失衡,武漢一地標(biāo)型商業(yè)暫緩開發(fā)

      童童聊娛樂啊
      2026-05-13 03:19:44
      小勒布倫談對王楚欽8連敗:他不只克我一個!他是世界第1很難被打敗

      小勒布倫談對王楚欽8連敗:他不只克我一個!他是世界第1很難被打敗

      818體育
      2026-05-12 23:35:17
      楊受成“霸占”容祖兒半生:27年不娶不放,她到底圖什么?

      楊受成“霸占”容祖兒半生:27年不娶不放,她到底圖什么?

      草莓解說體育
      2026-05-13 01:44:36
      U17國足生死戰(zhàn)夢幻開局!何思凡轟世界波,亞洲杯4戰(zhàn)卡塔爾均破門

      U17國足生死戰(zhàn)夢幻開局!何思凡轟世界波,亞洲杯4戰(zhàn)卡塔爾均破門

      奧拜爾
      2026-05-13 00:19:27
      特斯拉FSD入華倒計時:中國智駕的鯰魚,已經(jīng)游進池塘了

      特斯拉FSD入華倒計時:中國智駕的鯰魚,已經(jīng)游進池塘了

      新浪財經(jīng)
      2026-05-10 23:49:22
      美媒:美國三次加價求購,中國果斷拒絕!全球僅中國掌握這項技術(shù)

      美媒:美國三次加價求購,中國果斷拒絕!全球僅中國掌握這項技術(shù)

      聚焦最新動態(tài)
      2026-05-12 13:20:22
      從巴薩棄將到阿森納副隊長,用了10年時間,悍將敗也巴薩成也巴薩

      從巴薩棄將到阿森納副隊長,用了10年時間,悍將敗也巴薩成也巴薩

      足籃大世界
      2026-05-12 18:04:10
      隨著馬競2-1,西甲最新積分榜出爐:爭三和保級爭奪皆白熱化

      隨著馬競2-1,西甲最新積分榜出爐:爭三和保級爭奪皆白熱化

      側(cè)身凌空斬
      2026-05-13 05:35:48
      攜程再次卷入“大數(shù)據(jù)殺熟”爭議:鉆石會員訂房比普通會員貴一倍

      攜程再次卷入“大數(shù)據(jù)殺熟”爭議:鉆石會員訂房比普通會員貴一倍

      識礁Farsight
      2026-05-12 21:44:56
      京滬高鐵宣布漲價!無錫到北京二等座票價約漲115元

      京滬高鐵宣布漲價!無錫到北京二等座票價約漲115元

      江南晚報
      2026-05-12 18:22:27
      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      奧拜爾
      2026-05-13 01:56:27
      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價,就懂了

      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價,就懂了

      陳述影視
      2026-05-11 23:58:30
      佛山一套法拍別墅帶800平米花園,5800萬元起拍,園內(nèi)16棵樹木估價76萬元

      佛山一套法拍別墅帶800平米花園,5800萬元起拍,園內(nèi)16棵樹木估價76萬元

      極目新聞
      2026-05-12 23:57:32
      從歐洲杯冠軍到意乙降級:因西涅的斷崖式墜落

      從歐洲杯冠軍到意乙降級:因西涅的斷崖式墜落

      綠茵狂熱者
      2026-05-12 11:41:55
      最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      2026-05-13 07:35:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3396文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      時尚
      本地
      房產(chǎn)
      藝術(shù)
      公開課

      普通人真該學(xué)學(xué)如何穿搭!多穿裙子比褲子更時髦,大方提氣質(zhì)

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      藝術(shù)要聞

      這位女?dāng)z影師的航拍風(fēng)景照片,簡直太美了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 午夜主播福利一区二区| 久久99精品久久久久久久久久| 亚洲综合一区国产精品| 国产熟妇久久77777| 国产欧美日韩免费看AⅤ视频| 国产精品久久久久无码av1| 亚洲无码在线播放| 国精品无码一区二区三区左线| 99国精品午夜福利视频不卡99| 九九热免费看视频在线| 国产成人免费97在线| 日本东京热一区二区三区| 欧美一区二区精品夜夜嗨| 永久免费无码av在线网站| 国产 校园 另类 小说区| 亭亭五月丁香| 脱岳裙子从后面挺进去在线观看 | 精品国产人妻一区二区三区免费| 欧美日本激情| 无码国产精品一区二区免费16| 国产免费网站看v片在线无遮挡| 色呦呦在线视频| 国产丝袜美女| 亚卅精品| 人妖精品视频在线观看| 一区二区三区四区无限乱码在线观看| 国产屁屁影院| 亚洲精品1卡2卡3卡| 成人区人妻精品一区二区不卡视频| 国产福利一区二区写真| av在线亚洲欧洲日产一区二区| 国产亚洲精品久久久久的角色| 日韩一区二区中文| 国产成人无码一二三区视频| 亚洲国产成人久久综合一区77| 亚洲久悠悠色悠在线播放| 国产精品自在拍在线播放| 亚洲色大成网站WWW永久网站| 欧美国产日韩a在线视频| 日韩AV免费在线观看| 亚洲欧美中文日韩在线v日本|