<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      模型不是壁壘,Harness 也不是

      0
      分享至


      文:王智遠(yuǎn) | ID:Z201440

      先說明下,這篇文章有點(diǎn)費(fèi)腦。

      適合對AI趨勢感興趣、想搞懂2026年開發(fā)者圈在吵什么的人,得稍微跟著動動腦筋。

      咱們從一個大家都有過的感受說起:用過 AI 寫代碼的人,多半經(jīng)歷過同一條情緒曲線:第一天覺得這玩意兒要革命,第三天開始罵街。

      它會跑偏、反復(fù)犯同一個錯、忘了你三分鐘前說的要求,甚至項(xiàng)目做到一半,就突然跟你說「大功告成」。

      大部分人的第一反應(yīng):這模型不行,換一個更強(qiáng)的;但 2026 年初,海外開發(fā)者社區(qū)突然認(rèn)為,也許問題在模型外面那一圈東西。

      他們給這圈東西起了個名字,叫 Harness。

      01

      Harness本意是馬具,就是韁繩、馬鞍、嚼子、馬蹄鐵那一套,用來駕馭馬匹的裝備。用在 AI 這兒,意思也差不多。比如:管理大模型的運(yùn)行環(huán)境、工具接口、驗(yàn)證機(jī)制、反饋回路、約束規(guī)則等等。

      這個詞的走紅,有一條很清晰的時間線:

      2026年2月5日,HashiCorp聯(lián)合創(chuàng)始人Mitchell Hashimoto發(fā)了一篇博客。這人很厲害,做過Terraform,全球開發(fā)者都在用的基礎(chǔ)設(shè)施工具,在基礎(chǔ)設(shè)施圈子里算是教父級人物。

      他在博客里分享了自己用AI編程的經(jīng)歷,寫到第五步時說了一句話,大意是:Agent每次犯錯,別在提示詞里加一句「請你下次注意」,沒用。

      不如去改環(huán)境,寫一條規(guī)則、加一個腳本,讓它從結(jié)構(gòu)上就沒法再犯同樣的錯;他管這叫Engineer the Harness(去設(shè)計(jì)那套駕馭系統(tǒng))。

      六天后,OpenAI跟進(jìn)了。2月11日,他們發(fā)了一篇實(shí)驗(yàn)報(bào)告,標(biāo)題直接用了Harness Engineering。

      報(bào)告里說,三個工程師從空倉庫開始,五個月沒寫一行手動代碼,全靠OpenAI的編程Agent(Codex Agent生成),最后倉庫里攢了約一百萬行代碼,合并了1500個代碼合并請求,產(chǎn)品還有真實(shí)的日活用戶。

      這三個人五個月里沒干啥別的,就是設(shè)計(jì)讓Agent寫代碼的環(huán)境。

      之后,Martin Fowler站臺、LangChain(做AI應(yīng)用開發(fā)框架的公司)跟進(jìn),一個月之內(nèi),這個詞就從一篇個人博客,變成了開發(fā)者圈的黑話。

      那Harness具體能干嘛?最直觀的理解就是:讓Agent干不了壞事、記得住東西、做完有檢查、搞砸能回滾。

      比如:約束這件事,OpenAI的實(shí)驗(yàn)里,工程師要求代碼必須遵守分層架構(gòu),每個模塊只能引用相鄰層。注意,這不是在提示詞里寫一句「請遵守分層架構(gòu)」,那沒用,Agent下一秒就忘。

      他們把這條規(guī)則寫成了CI流水線里的自動化代碼檢查,Agent敢違反,代碼合并請求直接過不了。一條程序化的規(guī)則,比提示詞里一萬句叮囑都管用。

      再比如記憶,大模型天生只有一種記憶,就是上下文窗口,滿了前面的內(nèi)容就被擠掉。OpenAI的做法是在倉庫里維護(hù)一套結(jié)構(gòu)化文檔,設(shè)計(jì)規(guī)范、架構(gòu)決策、執(zhí)行計(jì)劃全放里面,Agent隨時能查。

      說白了,別指望金魚能記住事兒,你得在魚缸外面貼滿便簽。

      最有意思的是驗(yàn)證。Agent做完一件事,你問它「做得怎么樣」,它幾乎永遠(yuǎn)會說「我做得很好」,這不是Anthropic的段子,是真的。

      Agent評估自己的產(chǎn)出,總是盲目自信,哪怕在人看來質(zhì)量很一般。怎么辦?

      Anthropic的解法有點(diǎn)像生成對抗網(wǎng)絡(luò)(一種讓兩個AI互相博弈的技術(shù)):做事的和評判的分開,一個Agent寫,另一個專門挑毛病,選手和裁判不能是同一個人。

      還有糾錯。Anthropic在做長時間運(yùn)行的Agent時發(fā)現(xiàn),Agent跑一半掉進(jìn)死胡同是常事,硬做只會越錯越遠(yuǎn)。他們的做法簡單粗暴但有效:

      每次改動都走Git,卡住了就用Git回滾到上一個干凈狀態(tài),然后直接換一個新Agent接手,只給它一張交接單,寫清楚前面做了什么、接下來該做什么。

      不指望金魚能自我修復(fù),直接換一條新的,再塞給它一張紙條,這些加起來,就是Harness。

      聽起來好像也沒什么了不起,無非是規(guī)則、文檔、測試、回滾,都是軟件工程里早就有的東西。

      但看一個數(shù)字你就懂了:LangChain用同一個模型,提示詞一個字沒改,只調(diào)整了外面那一圈,換了工具定義、改了上下文管理、加了錯誤恢復(fù)循環(huán)。

      結(jié)果,在主流的編程能力基準(zhǔn)測試TerminalBench 2.0里,得分從52.8%漲到66.5%,排名從30名開外沖進(jìn)前5。馬沒換,就換了套馬具,這個數(shù)字比任何解釋都有說服力。

      02

      概念火了之后,開發(fā)者社區(qū)迅速分成兩派,吵得挺兇的。

      一派覺得 Harness 被吹過頭了。好玩的是,這派最猛的代言人,來自 Anthropic 自己家。

      Boris Cherny,Claude Code 的創(chuàng)造者,就是那個目前市面上最火的 AI 編程工具,他做的,他在AI 工程圈很有影響力的播客社區(qū)的討論里,說了一段讓對面很不舒服的話,大意是:

      Claude Code 的所有秘訣都在模型本身,它是模型上最薄的一層包裝,我們不可能做得比這更精簡了。

      你品品,一幫人在喊「Harness就是一切」,結(jié)果做出最成功的Agent產(chǎn)品之一的人告訴你,他的產(chǎn)品基本沒有Harness,這多少有點(diǎn)打臉。

      OpenAI的Noam Brown更直接,他說在推理模型上搭腳手架,很多時候都是添亂;模型的推理能力一直在飛速進(jìn)步,你今天費(fèi)半天勁搭的編排邏輯,過幾個月新模型出來,就成了絆腳石。

      獨(dú)立測試也在幫這派說話:

      專門做AI能力評估的機(jī)構(gòu)METR做了嚴(yán)格對比,結(jié)論是Claude Code和Codex,并沒有顯著贏過一個基礎(chǔ)腳手架。

      Scale AI的SWE-Atlas測試結(jié)論更扎心,你換哪個Harness框架,差距基本在誤差范圍內(nèi),說白了,折騰半天跟沒折騰一樣。

      聽到這,你可能會想,得,Harness就是個營銷概念吧?

      別急,還有更離譜的實(shí)驗(yàn)。安全研究員Can Boluk做了個叫Hashline的實(shí)驗(yàn),他沒碰模型、沒改提示詞,就改了一件事,Agent編輯代碼的格式。

      怎么改的?他給每行代碼加了2到3個字符的哈希標(biāo)識,Agent改代碼時不用復(fù)述整行,只需要說「把2:f1那行換成這個」就行。

      就這一個小改動,一個模型的編程得分從6.7%漲到了68.3%,模型權(quán)重一個字節(jié)沒動過。你說Harness有沒有用?

      另一家做AI應(yīng)用框架的公司LlamaIndex,創(chuàng)始人直接喊口號:模型的駕馭系統(tǒng)就是一切。他說自己一個下午優(yōu)化Harness,15個大模型的編碼能力全漲了。

      這派還有一張最硬的商業(yè)牌,Cursor。

      這家公司沒有自己的基礎(chǔ)模型,底層用Anthropic和OpenAI的能力,相當(dāng)于用別人的馬,但它靠模型上面那一層Harness,2025年底估值到了293億美元,2026年3月在談500億,年化收入突破20億美元,超過半數(shù)財(cái)富500強(qiáng)都在用來。

      它的護(hù)城河在哪?在馬具。

      所以到底誰對?我覺得他們在說不同層面的東西,你把兩邊的論據(jù)攤開看,會發(fā)現(xiàn)一個很有意思的事情。

      Boris Cherny 說 Claude Code 是「最薄的包裝」,這確實(shí)沒撒謊。Claude Code 的產(chǎn)品架構(gòu)就是簡單,沒有什么花哨的多步編排邏輯。

      但你去看Boris Cherny自己怎么用Claude Code,就不一樣了:他日常同時開10到15個Claude Code會話,5個在終端里跑,5到10個在瀏覽器里,還有幾個在手機(jī)上。

      他用自動化鉤子,每次保存代碼后自動格式化;用規(guī)劃模式,強(qiáng)制Agent先出方案再動手,方案沒批準(zhǔn)就不能寫一行代碼;甚至用子Agent做代碼審查,讓Agent檢查Agent的活;還把Agent接上瀏覽器自動化工具,讓它自己打開瀏覽器跑測試,看看寫的東西能不能用。

      他自己都說:給模型一種驗(yàn)證自身工作的方式,質(zhì)量能提升兩到三倍。你說這不是Harness?

      說白了,Boris Cherny說的「薄」,是產(chǎn)品架構(gòu)層面的薄;而對面說的「厚」,是工程實(shí)踐層面的厚。

      產(chǎn)品可以很薄,實(shí)際用時,必須在模型周圍建立規(guī)則、驗(yàn)證、反饋循環(huán),它才能在真實(shí)項(xiàng)目里不翻車,這兩件事一點(diǎn)都不矛盾。

      就像賽車手說「我的車底盤結(jié)構(gòu)很簡單」,但每次上賽道前,都要花三個小時調(diào)懸掛、調(diào)胎壓、調(diào)剎車平衡。

      其實(shí)爭論「模型重要還是Harness重要」,本身就有點(diǎn)無聊,就像爭論發(fā)動機(jī)重要還是底盤重要一樣,開過車的人都不會問這種問題。

      03

      但是,等一下,如果 Harness 真有那么重要,有一件事就說不通了:為什么做得最好的那些團(tuán)隊(duì),反而一直在拆掉自己搭的 Harness?

      Manus 你應(yīng)該聽過。

      他們半年重寫了五次Harness,每次都是砍功能,用通用的Shell執(zhí)行,替換掉復(fù)雜的工具定義;用結(jié)構(gòu)化的交接文件,替換掉管理型Agent,越做越簡單。

      Next.js背后的公司,在他們的v0產(chǎn)品里刪掉了80%的Agent工具,效果反而更好;Anthropic自己也在干這事,Boris Cherny說Claude Code的代碼每三到四周就重寫一次。

      為什么要重寫?

      因?yàn)樾掳姹灸P统鰜砗螅弦话鍴arness里的很多邏輯,已經(jīng)被模型內(nèi)化了,那些代碼就成了多余的,不切掉反而礙事。

      這就和前面說的「Harness就是一切」矛盾了。如果它是壁壘,為什么大家都在拆?因?yàn)镠arness本身,根本不是壁壘。

      Anthropic的研究員Nicholas Carlini,用Claude的上一代旗艦?zāi)P蚈pus 4.5時,做出了一個能用的編譯器;后來換成Opus 4.6,同樣的任務(wù),產(chǎn)出能編譯Linux內(nèi)核了。

      關(guān)鍵是,每升一級模型,他都得重新設(shè)計(jì)Harness。

      因?yàn)槟P妥儚?qiáng)了,舊Harness里那些「保護(hù)性」的邏輯,就變成了約束,限制了新模型本來能自主完成的事。他反復(fù)強(qiáng)調(diào):設(shè)計(jì)Harness時,得站在Claude的角度想。

      這揭示了一個不太舒服的真相:

      今天精心設(shè)計(jì)的Harness,大概率會被下一代模型「吃掉」;今天你需要規(guī)則防止Agent搞亂架構(gòu),明天新模型可能天生就知道不該這么做;今天你得用專門的評審Agent檢查質(zhì)量,后天模型自己的自我評估可能就靠譜了。

      反過來也成立。

      LangChain在調(diào)Harness的過程中,積累了大量執(zhí)行軌跡數(shù)據(jù):哪些路徑成功、哪些模式失敗、工具調(diào)用的序列是什么、Agent卡在哪一步、為什么卡住?

      這些數(shù)據(jù)很有價(jià)值,能反饋回模型訓(xùn)練,讓下一代模型更適配這個工作環(huán)境;LangChain自己也說:模型和Harness,正在共同進(jìn)化。

      所以真正的情況是:

      模型在吃Harness,Harness也在喂模型,它們像一條咬住自己尾巴的蛇,誰也停不下來。

      真正壁壘在于蛇轉(zhuǎn)動的速度,誰能更快發(fā)現(xiàn)Agent的失敗模式,把它編碼進(jìn)環(huán)境,再用環(huán)境跑出來的數(shù)據(jù)喂給下一代模型,讓這個飛輪再轉(zhuǎn)一圈,誰就贏了。

      Cursor 值那么多錢,因?yàn)閹装偃f開發(fā)者每天在上面寫代碼,每一次使用都在給這個飛輪加燃料,它積累的不是 Harness,是飛輪的轉(zhuǎn)速。

      說到底,所有人都在爭「馬重要還是馬具重要」,但真正跑在前面的人,早就不關(guān)心這個了;他們關(guān)心,換馬具的速度有多快,以及換下來的舊馬具里攢下的經(jīng)驗(yàn),能不能讓馬跑得更快。

      這條蛇還在轉(zhuǎn),而且越轉(zhuǎn)越快。嗯,整個事情就是這樣;就在我寫完這篇文章的時候,Anthropic 昨天把 Harness 做成產(chǎn)品發(fā)布了出來。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      又一家中國廠商量產(chǎn)DDR5內(nèi)存條

      又一家中國廠商量產(chǎn)DDR5內(nèi)存條

      放毒
      2026-05-12 17:24:38
      央視與國際足聯(lián)談判破裂,越南1500萬購中國8000萬嫌貴

      央視與國際足聯(lián)談判破裂,越南1500萬購中國8000萬嫌貴

      無意爭春
      2026-05-12 12:24:43
      網(wǎng)傳上海生化所發(fā)生有害物泄露,致多名師生中毒,校方隱瞞不報(bào)

      網(wǎng)傳上海生化所發(fā)生有害物泄露,致多名師生中毒,校方隱瞞不報(bào)

      可達(dá)鴨面面觀
      2026-05-12 20:27:09
      56歲張嘉益現(xiàn)狀,住西安大別墅,二婚娶女演員,如今新劇獲贊

      56歲張嘉益現(xiàn)狀,住西安大別墅,二婚娶女演員,如今新劇獲贊

      標(biāo)體
      2026-05-12 19:18:39
      伊朗:與美談判先決條件是結(jié)束戰(zhàn)事和解除封鎖 霍爾木茲海峽

      伊朗:與美談判先決條件是結(jié)束戰(zhàn)事和解除封鎖 霍爾木茲海峽

      每日經(jīng)濟(jì)新聞
      2026-05-13 08:28:39
      “最暖糖廠”翻臉拒收7.9萬噸甘蔗,撕開扎心真相

      “最暖糖廠”翻臉拒收7.9萬噸甘蔗,撕開扎心真相

      天氣觀察站
      2026-05-12 18:12:15
      林詩棟奪冠后“姐姐”走紅,難怪能成為世界冠軍,日本隊(duì)輸?shù)貌辉?>
    </a>
        <h3>
      <a href=陳意小可愛
      2026-05-12 19:02:23
      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機(jī)襲烏

      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機(jī)襲烏

      史政先鋒
      2026-05-12 20:17:03
      釋放重大信號!首相訪華返程后,西班牙罕見向中國出讓汽車工廠

      釋放重大信號!首相訪華返程后,西班牙罕見向中國出讓汽車工廠

      霽寒飄雪
      2026-05-12 19:32:56
      陜西延安通報(bào):已對薛某作出停職待查處理

      陜西延安通報(bào):已對薛某作出停職待查處理

      政知新媒體
      2026-05-12 08:21:18
      太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

      太諷刺!許家印獄中等判決,前妻卻在倫敦豪宅養(yǎng)31歲“小鮮肉”

      未曾青梅
      2026-05-11 22:14:44
      官網(wǎng)也關(guān)閉了!"如龍之父"新作真要涼了:再見馬東錫

      官網(wǎng)也關(guān)閉了!"如龍之父"新作真要涼了:再見馬東錫

      游民星空
      2026-05-12 23:04:15
      消費(fèi)者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費(fèi)

      消費(fèi)者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費(fèi)

      山西經(jīng)濟(jì)日報(bào)
      2026-05-12 15:19:36
      特斯拉FSD入華倒計(jì)時:中國智駕的鯰魚,已經(jīng)游進(jìn)池塘了

      特斯拉FSD入華倒計(jì)時:中國智駕的鯰魚,已經(jīng)游進(jìn)池塘了

      新浪財(cái)經(jīng)
      2026-05-10 23:49:22
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      深圳夫妻精準(zhǔn)囤貨,5個月身家暴漲320億

      深圳夫妻精準(zhǔn)囤貨,5個月身家暴漲320億

      都市快報(bào)橙柿互動
      2026-05-12 20:25:59
      2026年最強(qiáng)反腐已來了 , 中紀(jì)委:害群之馬將清除到底!

      2026年最強(qiáng)反腐已來了 , 中紀(jì)委:害群之馬將清除到底!

      細(xì)說職場
      2026-05-11 18:50:29
      日本運(yùn)籌帷幄二十載,終于成功把自己端上了中國的餐桌

      日本運(yùn)籌帷幄二十載,終于成功把自己端上了中國的餐桌

      觀雨大神經(jīng)
      2026-05-12 19:32:42
      貝克漢姆14歲小女兒“輟學(xué)”陪爸媽跑商演?3個哥都沒念大學(xué),網(wǎng)友:讓她好好讀書!

      貝克漢姆14歲小女兒“輟學(xué)”陪爸媽跑商演?3個哥都沒念大學(xué),網(wǎng)友:讓她好好讀書!

      英國報(bào)姐
      2026-05-12 21:11:05
      全球進(jìn)入北京時間

      全球進(jìn)入北京時間

      環(huán)球時報(bào)國際
      2026-05-12 14:44:04
      2026-05-13 09:00:49
      智遠(yuǎn)同學(xué) incentive-icons
      智遠(yuǎn)同學(xué)
      暢銷書《復(fù)利思維》作者;精神生活與商業(yè)探索,關(guān)注科技人文、消費(fèi)電商、品牌營銷、商業(yè)認(rèn)知思維等方面。
      695文章數(shù) 163關(guān)注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      牛彈琴:印度的大麻煩來了 CNN的報(bào)道更是觸目驚心

      頭條要聞

      牛彈琴:印度的大麻煩來了 CNN的報(bào)道更是觸目驚心

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財(cái)經(jīng)要聞

      深圳夫妻囤芯片,身家飆漲320億

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      手機(jī)
      親子
      教育
      旅游
      軍事航空

      手機(jī)要聞

      美國智能手機(jī)市場整體萎縮 iPhone 17熱銷帶動蘋果市占逆勢擴(kuò)張

      親子要聞

      什么字呢

      教育要聞

      600分以下想要本科就業(yè),如何報(bào)志愿

      旅游要聞

      占地3.2平方公里,它是西安的國家遺址公園,坐高鐵離廣元不遠(yuǎn)!

      軍事要聞

      知情人士披露:美國或考慮恢復(fù)對伊朗軍事行動

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美人与动人物姣配xxxx| 无码一区二区三区中文字幕| 久久精品人人槡人妻人人玩AV| 国产69久久精品成人看| 日韩AV无码精品一二三区| 国产第99页| 国产极品高颜值美女在线| 99久久99久久免费精品小说| 国内精品久久久久影院不卡| 亚洲一级毛片在线观| 人妻熟妇乱又伦精品视频中文字幕 | 亚洲国产精品乱码一区二区| 亚洲欧洲专线一区| 91精品天堂福利在线观看漫画| 久久精品视频一| 国产乱码精品一区二三区| 桃色综合网站| 人人爽人人爽人人片av | 精品国产免费一区二区三区香蕉| 亚洲精品aⅴ| 中文字幕无码乱码人妻系列蜜桃| 日韩精品无码久久久久久| 99久久国产综合精品女| 亚洲黄色片免费看| 亚洲天堂中文字幕| 糖心vlog产精国品免费入| 国产成人精品1024免费下载| 久久综合给合综合久久| 亚洲中文字幕国产精品| 国产V∧在线视频| 中文字幕日韩精品一区二区三区| 免费国产黄线在线观看| 伊人草久久| 欧洲熟妇色xxxx欧美老妇| 91视频在线| 国产精品无码久久久久| 日本久久99成人网站| 亚洲欧美日韩第一区中文字幕| 全球成人中文在线| 成人亚欧欧美激情在线观看| 亚洲熟妇av日韩熟妇在线|