<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      當(dāng)AI"工程師"遇到模糊需求,它會(huì)開口問,還是硬著頭皮瞎猜?

      0
      分享至


      這項(xiàng)由Scale.AI研究團(tuán)隊(duì)主導(dǎo)的研究以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.09408,有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

      假設(shè)你剛?cè)肼氁患夜荆谝惶熘鞴苋咏o你一份寫得含糊不清的需求文檔,里面既沒說清楚用戶界面要什么顏色,也沒說清楚數(shù)據(jù)庫該用哪個(gè)字段,更沒說清楚某個(gè)功能到底算不算核心需求。這時(shí)候,一個(gè)靠譜的工程師會(huì)做什么?他會(huì)先整理一下自己能自行決定的部分,然后把那些真正說不清楚的問題列出來,去找主管確認(rèn)。他不會(huì)假裝自己什么都明白,埋頭寫代碼,最后交出一份漂亮但完全跑偏的作品。

      然而,當(dāng)今最強(qiáng)大的AI智能體,也就是那些被企業(yè)寄予厚望、據(jù)說能替代程序員完成復(fù)雜軟件任務(wù)的系統(tǒng),在面對(duì)同樣的模糊需求時(shí),幾乎無一例外地選擇了"硬著頭皮猜"。它們不問、不停、不確認(rèn),直接開干,最終交出一份看起來合理但其實(shí)錯(cuò)得離譜的答案。Scale.AI的研究團(tuán)隊(duì)把這種現(xiàn)象稱為"判斷力缺口",并專門設(shè)計(jì)了一套名為HIL-BENCH(Human-in-the-Loop Benchmark,人機(jī)協(xié)作基準(zhǔn)測(cè)試)的評(píng)估體系來測(cè)量它。

      這項(xiàng)研究揭示的問題,正是當(dāng)前AI智能體大規(guī)模落地失敗率超過90%的核心原因之一——不是因?yàn)锳I不夠聰明,而是因?yàn)锳I不知道什么時(shí)候該開口求助。

      一、為什么AI"不懂問問題"是個(gè)大麻煩

      在理解這項(xiàng)研究之前,先得明白一個(gè)現(xiàn)實(shí):今天的AI智能體其實(shí)已經(jīng)很厲害了。給它們一份寫得清清楚楚、毫無歧義的任務(wù)說明,它們能以75%到89%的成功率完成復(fù)雜的軟件工程和數(shù)據(jù)庫查詢?nèi)蝿?wù)。這個(gè)數(shù)字放在幾年前,簡直是科幻小說里才有的場景。

      但現(xiàn)實(shí)中的工程任務(wù),幾乎沒有哪個(gè)是寫得清清楚楚的。需求文檔總是缺東少西,業(yè)務(wù)邏輯總有沒說清楚的地方,技術(shù)規(guī)格里總有互相矛盾的條目。人類工程師應(yīng)對(duì)這種情況的方式,是主動(dòng)識(shí)別哪些信息缺口是自己無法靠經(jīng)驗(yàn)和推斷解決的,然后去找有相關(guān)知識(shí)的人確認(rèn)。這種能力,研究團(tuán)隊(duì)稱之為"選擇性升級(jí)"——知道什么時(shí)候該自己決定,什么時(shí)候該去問人。

      現(xiàn)有的AI智能體,包括Claude Code、Codex、Cursor這些市場上最頂尖的產(chǎn)品,其實(shí)都內(nèi)置了"提問"工具。也就是說,從技術(shù)機(jī)制上看,它們是有能力開口問人的。但正如特斯拉前AI負(fù)責(zé)人、知名研究者Andrej Karpathy所觀察到的,這些智能體"不去問人類,缺乏正確的背景信息,總是試圖一次性搞定一切"。斯坦福大學(xué)教授、AI創(chuàng)業(yè)教父吳恩達(dá)也指出了同樣的核心障礙:AI無法獲取那些只存在于人腦中的知識(shí)。

      更麻煩的是,現(xiàn)有的評(píng)估基準(zhǔn)根本察覺不到這個(gè)問題。SWE-Bench(軟件工程基準(zhǔn))、HumanEval(代碼能力評(píng)估)、BIRD-SQL(數(shù)據(jù)庫查詢基準(zhǔn))這些主流測(cè)試,給AI提供的都是寫得清清楚楚、毫無歧義的任務(wù)。在這種環(huán)境下,一個(gè)AI就算靠"蒙對(duì)了"完成了任務(wù),和一個(gè)真正理解了任務(wù)、主動(dòng)確認(rèn)了所有細(xì)節(jié)的AI,得到的分?jǐn)?shù)是一模一樣的。這就好比用一道有標(biāo)準(zhǔn)答案的選擇題來測(cè)試學(xué)生"是否理解了這道題的含義"——即使學(xué)生完全不懂題目在說什么,只要運(yùn)氣好選對(duì)了,照樣滿分。這種評(píng)估方式,制造了一個(gè)危險(xiǎn)的假象:高分?jǐn)?shù)等于高質(zhì)量,可以放心部署。

      Scale.AI的研究團(tuán)隊(duì)決定打破這個(gè)假象。

      二、HIL-BENCH:專門設(shè)計(jì)來測(cè)試"知道不知道什么時(shí)候該問"

      HIL-BENCH的核心設(shè)計(jì)思路,用一句話來說就是:把原本寫得清楚的任務(wù)故意"弄模糊",然后看AI有沒有注意到,有沒有去問。

      具體的做法是,研究團(tuán)隊(duì)從兩個(gè)真實(shí)的AI智能體評(píng)估數(shù)據(jù)集中選取任務(wù):一個(gè)是針對(duì)軟件工程能力的SWE-Bench Pro,涉及在真實(shí)代碼庫中修復(fù)GitHub問題,覆蓋Python、Go、JavaScript和TypeScript等語言;另一個(gè)是針對(duì)自然語言轉(zhuǎn)SQL查詢能力的BIRD數(shù)據(jù)集,涉及金融、醫(yī)療、教育、娛樂等多個(gè)領(lǐng)域的數(shù)據(jù)庫查詢。

      選定任務(wù)之后,團(tuán)隊(duì)請(qǐng)來經(jīng)過專門培訓(xùn)的領(lǐng)域?qū)<易⑨寙T,在每個(gè)任務(wù)里故意埋入三到五個(gè)"障礙"。這里的"障礙"不是隨便加的坑,而是三種在現(xiàn)實(shí)工程環(huán)境中真實(shí)存在的信息缺口類型。

      第一種叫"缺失信息",占所有障礙的42%。這類障礙是任務(wù)說明里根本沒提到的必要參數(shù)或數(shù)值,AI必須得知道這個(gè)值才能完成任務(wù),但靠猜是猜不出來的——比如一個(gè)解析器在失敗時(shí)應(yīng)該用什么默認(rèn)值,比如SQL查詢里"快速進(jìn)站"的時(shí)間閾值是多少秒,任務(wù)里沒說,數(shù)據(jù)庫里也沒有。

      第二種叫"模糊請(qǐng)求",占36%。這類障礙是任務(wù)說明里存在多種合理解釋,每種解釋都能實(shí)現(xiàn),但最終結(jié)果完全不同。比如版本字符串里的"epoch段"應(yīng)該如何處理,可以有刪除、標(biāo)準(zhǔn)化、委托等多種策略,哪種才是用戶想要的?比如"中東國家"的范圍應(yīng)該包含哪些國家,不同人有不同理解。

      第三種叫"矛盾信息",占22%。這類障礙是任務(wù)說明里兩處要求互相沖突,無法同時(shí)滿足。比如一份規(guī)格說管理員角色有特殊權(quán)限,另一份文件說沒有,到底聽哪個(gè)?比如SQL查詢要求統(tǒng)計(jì)北加州學(xué)校的數(shù)據(jù),但具體列出來的卻是南加州的學(xué)校名稱。

      每一個(gè)障礙在被加入數(shù)據(jù)集之前,都必須通過七項(xiàng)嚴(yán)格的質(zhì)量審查,任何一項(xiàng)不通過都會(huì)被直接拒絕。這七項(xiàng)標(biāo)準(zhǔn)分別要求障礙必須在現(xiàn)實(shí)中合理存在、必須真正導(dǎo)致任務(wù)無法正確完成、必須有唯一明確的答案、答案空間必須足夠大以至于無法靠猜、各障礙之間必須互相獨(dú)立、答案只能從人類那里獲得而不能從任何可用信息中推斷出來、以及必須基于現(xiàn)有任務(wù)背景而非憑空捏造。此外,每個(gè)任務(wù)還要經(jīng)過五到六輪獨(dú)立的人工審核,以及若干輪自動(dòng)化評(píng)估流程,反復(fù)修改直到所有標(biāo)準(zhǔn)都滿足為止。

      三、"邊做邊發(fā)現(xiàn)":模擬真實(shí)工程的漸進(jìn)式探索

      HIL-BENCH與其他類似研究的最重要區(qū)別,在于它對(duì)"漸進(jìn)式發(fā)現(xiàn)"的設(shè)計(jì)。

      研究團(tuán)隊(duì)注意到,在真實(shí)的工程工作中,信息缺口通常不是一開始就擺在你面前的。你得先開始工作,寫一部分代碼,查一部分?jǐn)?shù)據(jù)庫,然后在某個(gè)具體的執(zhí)行環(huán)節(jié)才會(huì)遇到一個(gè)問題:這里需要一個(gè)參數(shù),但沒有;這里有兩種可能的實(shí)現(xiàn)方式,但不知道哪種才是正確的;這里有兩條規(guī)則互相矛盾,不知道該遵從哪一條。只有在這個(gè)時(shí)刻,信息缺口才真正"浮出水面"。

      為了模擬這種真實(shí)情況,HIL-BENCH特意把障礙設(shè)計(jì)成只有通過實(shí)際執(zhí)行和環(huán)境探索才能發(fā)現(xiàn),而不是一眼看完任務(wù)說明就能察覺到。為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)專門做了一個(gè)對(duì)照實(shí)驗(yàn):讓Claude Opus 4.6在不使用任何環(huán)境工具(不能查看數(shù)據(jù)庫結(jié)構(gòu)、不能執(zhí)行SQL、不能檢索業(yè)務(wù)邏輯)的情況下完成任務(wù)。結(jié)果,它的障礙發(fā)現(xiàn)率從有完整工具時(shí)的61%驟降至11%。這個(gè)數(shù)字有力地證明了,絕大多數(shù)障礙確實(shí)需要AI先"動(dòng)手干活"才能被發(fā)現(xiàn),而不是坐在那里看看需求文檔就能識(shí)別出來。

      在具體的評(píng)測(cè)場景中,每個(gè)AI智能體會(huì)收到一個(gè)模糊化的任務(wù),同時(shí)擁有一個(gè)特殊工具:ask_human(),也就是"向人類提問"。這個(gè)工具背后連接著一個(gè)凍結(jié)的開源語言模型(Llama-3.3-70B-Instruct),它充當(dāng)"知情的人類協(xié)作者"的角色。當(dāng)AI提的問題準(zhǔn)確指向了某個(gè)已注冊(cè)的障礙,這個(gè)"人類"就會(huì)返回對(duì)應(yīng)的答案;如果問題不相關(guān)或者太模糊,它就返回"irrelevant question"(無關(guān)問題)。這個(gè)機(jī)制保證了評(píng)測(cè)結(jié)果的可重復(fù)性,不會(huì)因?yàn)椴煌祟愒u(píng)估者的主觀判斷而產(chǎn)生差異。

      每個(gè)任務(wù)里的多個(gè)障礙,會(huì)在AI探索任務(wù)環(huán)境的不同階段逐一浮現(xiàn)。每次遇到信息缺口,AI都面臨一個(gè)判斷:這個(gè)問題我能自己解決嗎,還是得去問人?如果它判斷正確,識(shí)別出了這是一個(gè)自己無法解決的缺口并且提了一個(gè)準(zhǔn)確的問題,就能獲得答案并繼續(xù)推進(jìn);如果它假裝沒看見,或者自己憑感覺做了個(gè)假設(shè),那這個(gè)障礙就永遠(yuǎn)無法被真正解決,任務(wù)也就必然失敗。

      四、ASK-F1:一把專門測(cè)量"問問題質(zhì)量"的尺子

      評(píng)測(cè)AI的判斷力,不能只看它最終有沒有完成任務(wù),還要看它問問題的質(zhì)量。于是研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)專用指標(biāo),叫做ASK-F1。

      這個(gè)指標(biāo)由兩個(gè)維度構(gòu)成。第一個(gè)叫"召回率",衡量的是AI有沒有找出所有需要問的問題——也就是說,任務(wù)里埋了五個(gè)障礙,AI有沒有都發(fā)現(xiàn)了,都問到了?發(fā)現(xiàn)得越多,召回率越高。第二個(gè)叫"精確率",衡量的是AI所問的問題有多少是真正有價(jià)值的——也就是說,AI問了十個(gè)問題,有幾個(gè)是真正指向了某個(gè)真實(shí)障礙的?瞎問一通的問題越少,精確率越高。

      ASK-F1是這兩個(gè)維度的調(diào)和平均數(shù),也就是說,只有當(dāng)兩個(gè)維度都比較高的時(shí)候,ASK-F1才會(huì)高。這個(gè)設(shè)計(jì)有一個(gè)精妙之處:它從根本上堵死了"靠刷題量取勝"的漏洞。假如一個(gè)AI任務(wù)里有五個(gè)障礙,它通過問五十個(gè)問題把所有障礙都問到了,召回率是80%,但精確率只有8%(五十個(gè)問題里只有四個(gè)有效),那它的ASK-F1得分只有可憐的14.5%。靠題海戰(zhàn)術(shù)刷高召回率,在這個(gè)指標(biāo)下完全不管用。

      這種設(shè)計(jì)背后有一個(gè)現(xiàn)實(shí)考量:如果AI每完成一個(gè)任務(wù)都要向人類提五十個(gè)問題,那比起直接讓人類自己做,AI反而更低效,協(xié)作根本無法維系。

      最終,HIL-BENCH包含300個(gè)任務(wù),其中150個(gè)來自軟件工程領(lǐng)域,150個(gè)來自SQL查詢領(lǐng)域,共埋入1131個(gè)障礙,平均每個(gè)任務(wù)3.8個(gè)。障礙類型分布為42%缺失信息、36%模糊請(qǐng)求、22%矛盾信息。數(shù)據(jù)集被分為200個(gè)公開任務(wù)和100個(gè)私有任務(wù),私有部分作為不公開的測(cè)試集,防止模型"刷題"。

      五、實(shí)驗(yàn)結(jié)果:所有頂級(jí)AI都在這里翻車了

      研究團(tuán)隊(duì)對(duì)四個(gè)當(dāng)前最頂尖的前沿AI模型進(jìn)行了評(píng)測(cè):GPT 5.3 Codex、GPT 5.4、Gemini 3.1 Pro和Claude Opus 4.6。每個(gè)模型在三種條件下分別測(cè)試:第一種是"無工具基線",也就是任務(wù)被模糊化了,但沒有提問工具;第二種是"完整信息",也就是所有障礙的答案都直接告訴AI,讓它在已知全部背景的情況下完成任務(wù);第三種是"有提問工具",也就是任務(wù)被模糊化了,同時(shí)提供ask_human()工具,讓AI自行決定何時(shí)提問。

      在完整信息條件下,這些模型的表現(xiàn)非常出色。在SQL領(lǐng)域,四個(gè)模型的完成率在86%到91%之間;在軟件工程領(lǐng)域,在64%到88%之間。這說明模型本身的執(zhí)行能力是完全夠用的。

      然而,當(dāng)切換到"有提問工具"條件時(shí),結(jié)果令人震驚。在SQL領(lǐng)域,表現(xiàn)最好的Claude Opus 4.6的任務(wù)完成率從91%暴跌到39%;在軟件工程領(lǐng)域,表現(xiàn)最好的Gemini 3.1 Pro完成率從85%跌到了5%。其余模型更是慘不忍睹,GPT 5.3 Codex在軟件工程領(lǐng)域只有2%的完成率,GPT 5.4更只有1.3%。

      而在"無工具基線"條件下,所有模型的完成率幾乎趨近于零,這進(jìn)一步確認(rèn)了這些任務(wù)的設(shè)計(jì)是有效的:任務(wù)確實(shí)需要外部信息才能完成,障礙確實(shí)無法靠猜或推斷繞過。

      用ASK-F1來衡量,SQL領(lǐng)域的平均分是40.5%,軟件工程領(lǐng)域是37.4%。沒有任何一個(gè)模型進(jìn)入了"提問準(zhǔn)確且覆蓋全面"的優(yōu)良區(qū)間。

      從召回率和精確率的二維分解來看,不同模型呈現(xiàn)出截然不同的失敗畫像。GPT系列兩個(gè)模型在兩個(gè)領(lǐng)域都展現(xiàn)出低召回率的特點(diǎn):它們很少主動(dòng)提問,更傾向于直接開始執(zhí)行,根本沒有意識(shí)到需要確認(rèn)什么信息。Gemini在軟件工程領(lǐng)域的表現(xiàn)和GPT類似,但在SQL領(lǐng)域,它的召回率相對(duì)較高,問了比較多的問題,但精確率很低,問的大多是過于寬泛或指向不明的問題。Claude在SQL領(lǐng)域達(dá)到了相對(duì)合理的平衡,召回率61.2%,精確率54.3%,但在軟件工程領(lǐng)域,它的召回率降到34.6%,精確率更是只有26.3%,兩個(gè)領(lǐng)域之間的落差是所有模型中最大的。

      六、為什么它們會(huì)這樣失敗?三種截然不同的問題模式

      僅僅知道"它們失敗了"還不夠,研究團(tuán)隊(duì)對(duì)超過3600條失敗記錄進(jìn)行了詳細(xì)分析,用一個(gè)AI評(píng)判系統(tǒng)將每條記錄歸類到三個(gè)能力維度(工具使用、邏輯推理、目標(biāo)對(duì)齊)和各自的失敗子模式(準(zhǔn)確性錯(cuò)誤、自我評(píng)估錯(cuò)誤、策略錯(cuò)誤、完成度錯(cuò)誤)。這套分析框架在多個(gè)項(xiàng)目中獨(dú)立開發(fā),評(píng)判系統(tǒng)的自我一致性指標(biāo)達(dá)到0.928,與人工判斷的比對(duì)也經(jīng)過了持續(xù)校準(zhǔn)。

      GPT 5.4和GPT 5.3 Codex呈現(xiàn)出"錯(cuò)誤執(zhí)行、充滿自信"的失敗模式。這兩個(gè)模型在工具使用和邏輯推理兩個(gè)維度上,都以"準(zhǔn)確性錯(cuò)誤"為主要失敗來源——也就是說,它們不是因?yàn)椴恢涝撛趺醋龆〉模且驗(yàn)榛阱e(cuò)誤的前提信息在做對(duì)的事。在SQL領(lǐng)域,73%到93%的工具使用失敗都是"調(diào)用了正確的工具,但用了錯(cuò)誤的參數(shù)";76%到88%的邏輯推理失敗都是"把錯(cuò)誤的信念貫穿到了整個(gè)推理鏈里"。更關(guān)鍵的是,加入提問工具幾乎不改變這個(gè)失敗模式,因?yàn)檫@兩個(gè)模型從一開始就沒有"發(fā)現(xiàn)"需要問什么,自然也不會(huì)去問。

      Claude Opus 4.6呈現(xiàn)出"能發(fā)現(xiàn)問題、但不采取行動(dòng)"的失敗模式。Claude是所有被測(cè)模型中唯一會(huì)在推理記錄里明確說出"這個(gè)任務(wù)我覺得無法完成"的模型,它在目標(biāo)對(duì)齊維度上的自我評(píng)估失敗率高達(dá)45%——也就是說,幾乎一半的失敗案例里,Claude自己都知道輸出是有問題的,但還是提交了。同時(shí),Claude在工具使用維度上有82%的"完成度失敗",意味著它頻繁地進(jìn)行大量探索,消耗了其他模型五倍之多的計(jì)算資源,卻始終沒有執(zhí)行那個(gè)關(guān)鍵的最終步驟。它能感知到不確定性,但感知到之后,既沒有去問清楚,也沒有在知情的情況下停下來,而是繼續(xù)探索、繼續(xù)卡住、然后提交一個(gè)自己都不滿意的答案。

      Gemini 3.1 Pro呈現(xiàn)出"對(duì)環(huán)境高度敏感、容易被外部信號(hào)影響"的失敗模式。它在兩個(gè)領(lǐng)域之間的表現(xiàn)差異是所有模型中最大的。在SQL領(lǐng)域,Gemini有很高的邏輯自我評(píng)估失敗率,也就是說它經(jīng)常不確定自己的答案是不是對(duì)的;但一旦提供了提問工具,它的行為發(fā)生了最戲劇性的轉(zhuǎn)變:工具使用維度的"完成度失敗"從56%暴降至18%,也就是說它從"卡在探索階段、沒有執(zhí)行"變成了"更愿意動(dòng)手執(zhí)行"。問題是,執(zhí)行之后"準(zhǔn)確性失敗"從38%飆升至82%,也就是說它動(dòng)手了,但動(dòng)錯(cuò)了。提問工具讓Gemini從"不敢出手"變成了"出手但出錯(cuò)",失敗的形態(tài)變了,但失敗本身并沒有消失。在軟件工程領(lǐng)域,這種"被外部信號(hào)糾正"的能力幾乎消失,表現(xiàn)更接近于其他模型。

      研究團(tuán)隊(duì)還注意到,"提問工具改變了失敗的形態(tài),而不是減少了失敗的次數(shù)"。這是一個(gè)重要的洞察:擁有提問能力,并不等于擁有使用提問能力的判斷力。這個(gè)工具,是在每個(gè)模型原有的失敗模式上額外疊加的一項(xiàng)能力,而不是一個(gè)能從根本上解決問題的開關(guān)。

      七、判斷力可以被訓(xùn)練出來嗎?強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)的答案

      發(fā)現(xiàn)了這么多問題,研究團(tuán)隊(duì)沒有停下來,而是進(jìn)一步追問:這種"知道什么時(shí)候該問"的判斷力,能不能通過訓(xùn)練來改善?

      他們選擇了Qwen3 32B作為基礎(chǔ)模型,使用LoRA(一種參數(shù)高效的微調(diào)技術(shù),可以理解為在原有模型上貼一層"專項(xiàng)訓(xùn)練補(bǔ)丁")和SkyRL框架進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練數(shù)據(jù)是120個(gè)HIL-BENCH任務(wù),驗(yàn)證數(shù)據(jù)是另外30個(gè)未見過的任務(wù),SQL和軟件工程兩個(gè)領(lǐng)域分別獨(dú)立訓(xùn)練。

      訓(xùn)練的核心是一套精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制,因?yàn)锳SK-F1這個(gè)指標(biāo)本身雖然是個(gè)好的目標(biāo),但它是一個(gè)終局性的整體評(píng)分,很難直接用來給訓(xùn)練過程中的每一步行為提供反饋。研究團(tuán)隊(duì)把它分解成兩個(gè)互補(bǔ)的獎(jiǎng)勵(lì)信號(hào)。

      第一個(gè)是"每步獎(jiǎng)勵(lì)",針對(duì)每一次ask_human()調(diào)用立即給出反饋:如果這個(gè)問題準(zhǔn)確指向了某個(gè)已注冊(cè)的障礙,給+0.3分;如果這個(gè)問題無關(guān)緊要或者重復(fù)問了已經(jīng)解決的障礙,扣-0.1分。這種非對(duì)稱的設(shè)計(jì)——獎(jiǎng)勵(lì)比懲罰大三倍——是故意的,目的是鼓勵(lì)A(yù)I探索問題空間,同時(shí)對(duì)無效問題有所約束。這個(gè)組件主要訓(xùn)練的是"精確率"方向的能力。

      第二個(gè)是"終局獎(jiǎng)勵(lì)",在整個(gè)任務(wù)完成時(shí)給出:已發(fā)現(xiàn)的障礙數(shù)量除以總障礙數(shù)量,但有一個(gè)門檻條件——只有當(dāng)AI至少問出了一個(gè)有效問題,這個(gè)獎(jiǎng)勵(lì)才會(huì)計(jì)算,否則為零。門檻條件的作用是防止模型學(xué)會(huì)"什么都不問"的退化策略。這個(gè)組件主要訓(xùn)練的是"召回率"方向的能力。

      總獎(jiǎng)勵(lì)是兩者之和,讓AI在探索的每一步都能得到即時(shí)反饋,同時(shí)也為整體覆蓋率保持激勵(lì)。

      結(jié)果非常值得關(guān)注。訓(xùn)練后的Qwen3 32B,在SQL領(lǐng)域的ASK-F1從18%提升至46%,任務(wù)完成率從11%提升至24%;在軟件工程領(lǐng)域,ASK-F1從4%提升至21%,任務(wù)完成率從1%提升至7%。

      更關(guān)鍵的是跨領(lǐng)域遷移實(shí)驗(yàn)。研究團(tuán)隊(duì)測(cè)試了一個(gè)只在SQL任務(wù)上訓(xùn)練的模型,在軟件工程任務(wù)上的表現(xiàn);以及一個(gè)只在軟件工程任務(wù)上訓(xùn)練的模型,在SQL任務(wù)上的表現(xiàn)。兩個(gè)方向都有正向遷移,也就是說,在一個(gè)領(lǐng)域里學(xué)到的判斷力,能夠遷移到完全不同的另一個(gè)領(lǐng)域。這是整個(gè)研究中最有力的一個(gè)發(fā)現(xiàn):這個(gè)模型學(xué)到的不是"在什么SQL場景下該問問題"或者"在什么代碼庫情境下該問問題",而是一種更通用的能力——識(shí)別出自己無法獨(dú)立解決的不確定性,并據(jù)此采取行動(dòng)。

      這也意味著,"判斷力"不是某個(gè)領(lǐng)域的特定知識(shí),而是一種可以跨領(lǐng)域泛化的認(rèn)知技能,而且這種技能是可以通過正確設(shè)計(jì)的訓(xùn)練信號(hào)來培養(yǎng)的。

      八、一張4格表格,揭示AI真正的能力版圖

      研究團(tuán)隊(duì)在論文結(jié)尾提出了一個(gè)簡潔但深刻的分類框架,把所有AI智能體的行為歸入一個(gè)兩維矩陣:橫軸是任務(wù)結(jié)果(失敗或成功),縱軸是行為策略(不問人或按需提問)。

      在"不問、失敗"的格子里,是最危險(xiǎn)的一類:充滿自信地產(chǎn)出看起來合理但實(shí)際上完全錯(cuò)誤的答案。這是當(dāng)前絕大多數(shù)前沿AI智能體所在的位置,也是超過90%企業(yè)AI試點(diǎn)項(xiàng)目失敗的核心原因。

      在"不問、成功"的格子里,是靠運(yùn)氣碰對(duì)了的類型:答案恰好是對(duì)的,但這種正確性是脆弱的、不可重現(xiàn)的,換一個(gè)略有不同的任務(wù)場景就會(huì)失敗。

      在"亂問、成功"的格子里,是過度依賴人工確認(rèn)的類型:每個(gè)任務(wù)問幾十個(gè)問題,雖然最終成功了,但比起直接讓人類做,效率更低,人力成本更高,違背了用AI提效的初衷。

      只有在"按需提問、成功"的格子里,才是真正實(shí)用、可靠、值得大規(guī)模部署的AI智能體:它能自主完成自己有把握完成的部分,同時(shí)在遇到真正無法獨(dú)立解決的信息缺口時(shí),精準(zhǔn)地提出正確的問題,獲取答案,繼續(xù)推進(jìn)。研究團(tuán)隊(duì)把這種能力稱為"選擇性升級(jí)"。

      HIL-BENCH的意義,正在于它讓這四個(gè)格子首次變得可以被測(cè)量和區(qū)分。在此之前,所有主流基準(zhǔn)測(cè)試都把這四種情況混在一起,只看最終的任務(wù)完成率,根本區(qū)分不出來。一個(gè)靠蒙對(duì)了完成任務(wù)的AI,和一個(gè)真正理解了任務(wù)、主動(dòng)確認(rèn)了關(guān)鍵信息的AI,在舊有的評(píng)估體系里得到的是一樣的分?jǐn)?shù)。

      研究團(tuán)隊(duì)最后說了一段令人回味的話:無論這些模型變得多么強(qiáng)大,總會(huì)有一些背景信息是鎖在某個(gè)具體的人腦子里或者某個(gè)組織的隱性知識(shí)庫里的,是任何模型都無法從環(huán)境中自行推斷出來的。對(duì)于所有真實(shí)世界的應(yīng)用場景而言,人類永遠(yuǎn)都會(huì)在這個(gè)循環(huán)里。真正的問題是:AI是否知道這一點(diǎn)?現(xiàn)在有了HIL-BENCH,我們至少有了一種測(cè)量方式來找到答案。

      Q&A

      Q1:HIL-BENCH是如何防止AI靠大量提問來刷高分?jǐn)?shù)的?

      A:HIL-BENCH使用的核心指標(biāo)ASK-F1是精確率和召回率的調(diào)和平均數(shù)。精確率衡量AI所提問題中有多少是真正指向?qū)嶋H信息缺口的,召回率衡量AI找到了多少個(gè)需要問的關(guān)鍵問題。由于調(diào)和平均數(shù)的特性,只有兩個(gè)維度都高才能得到高分。假如一個(gè)任務(wù)有五個(gè)障礙,AI靠問五十個(gè)問題把所有障礙都問到了,召回率是80%,但精確率只有8%,ASK-F1得分只有14.5%,完全無法通過題海戰(zhàn)術(shù)取得好成績。

      Q2:Claude、GPT和Gemini在HIL-BENCH上各自有什么不同的失敗特點(diǎn)?

      A:三個(gè)模型呈現(xiàn)出截然不同的失敗模式。GPT系列模型的問題是"錯(cuò)誤執(zhí)行、充滿自信",它們從不主動(dòng)提問,基于錯(cuò)誤前提直接行動(dòng),加入提問工具也不改變這個(gè)模式,因?yàn)樗鼈兏緵]意識(shí)到有什么需要問的。Claude的問題是"能感知不確定性、但不轉(zhuǎn)化為行動(dòng)",它是唯一會(huì)明確說出"這個(gè)任務(wù)無法完成"的模型,但說完還是照樣提交了錯(cuò)誤答案,同時(shí)消耗了其他模型五倍的計(jì)算資源。Gemini的問題是"對(duì)外部信號(hào)敏感但容易執(zhí)行偏差",擁有提問工具后它變得更愿意動(dòng)手,但動(dòng)手之后的準(zhǔn)確率反而下降了。

      Q3:HIL-BENCH強(qiáng)化學(xué)習(xí)訓(xùn)練的結(jié)果能說明AI的判斷力可以被提升嗎?

      A:可以,而且存在跨領(lǐng)域遷移。研究團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)對(duì)Qwen3 32B進(jìn)行訓(xùn)練后,SQL領(lǐng)域的ASK-F1從18%提升到46%,任務(wù)完成率從11%提升到24%;軟件工程領(lǐng)域的ASK-F1從4%提升到21%,任務(wù)完成率從1%提升到7%。更重要的是,只在SQL任務(wù)上訓(xùn)練的模型,在軟件工程任務(wù)上的表現(xiàn)也有提升,反之亦然。這說明模型學(xué)到的不是某個(gè)領(lǐng)域的特定經(jīng)驗(yàn),而是識(shí)別和處理不可解決的不確定性這種通用能力,證明判斷力是可訓(xùn)練的通用技能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      妍妍教育日記
      2026-05-07 10:30:13
      給富豪當(dāng)15年保姆,離開他送我一個(gè)盒子,本以為是錢,打開后傻眼

      給富豪當(dāng)15年保姆,離開他送我一個(gè)盒子,本以為是錢,打開后傻眼

      白云故事
      2025-04-03 12:45:04
      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      黯泉
      2026-04-01 17:28:39
      雷霆4比0湖人:如果這是勒布朗在洛杉磯的最后

      雷霆4比0湖人:如果這是勒布朗在洛杉磯的最后

      張佳瑋寫字的地方
      2026-05-12 14:08:02
      回顧:14年北京摔童案:韓磊被執(zhí)行死刑,行刑前哭著抽完2根煙

      回顧:14年北京摔童案:韓磊被執(zhí)行死刑,行刑前哭著抽完2根煙

      墨染塵香
      2024-06-08 12:20:45
      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      阿器談史
      2026-04-23 14:07:39
      別不信,能不能發(fā)生關(guān)系,第一次見面差不多就定了

      別不信,能不能發(fā)生關(guān)系,第一次見面差不多就定了

      阿凱銷售場
      2026-05-12 15:09:54
      盲人網(wǎng)紅盲道被電動(dòng)車撞受傷,對(duì)方還出口辱罵,相關(guān)部門正式回應(yīng)

      盲人網(wǎng)紅盲道被電動(dòng)車撞受傷,對(duì)方還出口辱罵,相關(guān)部門正式回應(yīng)

      新游戲大妹子
      2026-05-11 11:47:11
      賴昌星的情人蔡玲玲:悔不該委身于他,58歲的她現(xiàn)狀如何?

      賴昌星的情人蔡玲玲:悔不該委身于他,58歲的她現(xiàn)狀如何?

      細(xì)品名人
      2026-04-29 07:06:35
      十大元帥中真正拉起一支隊(duì)伍的,僅有兩個(gè)半,他們被我們稱為老總

      十大元帥中真正拉起一支隊(duì)伍的,僅有兩個(gè)半,他們被我們稱為老總

      史之銘
      2026-04-18 03:41:39
      難怪能把國乒女隊(duì)逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      難怪能把國乒女隊(duì)逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      十點(diǎn)街球體育
      2026-05-11 21:34:06
      中韓半導(dǎo)體ETF華泰柏瑞上演過山車行情,1小時(shí)換手率81.07%,最新溢價(jià)率21.61%

      中韓半導(dǎo)體ETF華泰柏瑞上演過山車行情,1小時(shí)換手率81.07%,最新溢價(jià)率21.61%

      格隆匯
      2026-05-12 11:50:07
      盧比奧來不了中國了?不是中國不讓他進(jìn),是他根本不配進(jìn)!

      盧比奧來不了中國了?不是中國不讓他進(jìn),是他根本不配進(jìn)!

      生活魔術(shù)專家
      2026-05-12 03:19:26
      “我兒子周歲13,虛歲40”,家長無奈曬照片:跟中年男人沒啥區(qū)別

      “我兒子周歲13,虛歲40”,家長無奈曬照片:跟中年男人沒啥區(qū)別

      澤澤先生
      2026-05-08 18:41:58
      重磅!一家新航空集團(tuán)將誕生!

      重磅!一家新航空集團(tuán)將誕生!

      民航之翼
      2026-05-11 19:30:03
      糖尿病患者留意:早上寧可吃油條,也不要輕易吃這4種食物

      糖尿病患者留意:早上寧可吃油條,也不要輕易吃這4種食物

      新時(shí)代的兩性情感
      2026-05-12 13:21:32
      首批中國電動(dòng)汽車登陸加拿大!美國尷尬 兩鄰國都能買到便宜的中國車

      首批中國電動(dòng)汽車登陸加拿大!美國尷尬 兩鄰國都能買到便宜的中國車

      快科技
      2026-05-12 08:41:04
      黑尾醬,徹底消失了?

      黑尾醬,徹底消失了?

      生如稗草
      2026-03-15 08:48:11
      他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

      他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

      歷史人文2
      2026-05-09 22:00:03
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養(yǎng)生之道
      2026-05-10 20:13:01
      2026-05-12 16:08:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      女子立遺囑遺產(chǎn)歸弟弟 其女起訴兩人返還857萬及房產(chǎn)

      頭條要聞

      女子立遺囑遺產(chǎn)歸弟弟 其女起訴兩人返還857萬及房產(chǎn)

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動(dòng)照 評(píng)論區(qū)變?cè)S愿池

      財(cái)經(jīng)要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      時(shí)尚
      家居
      房產(chǎn)
      本地
      軍事航空

      征集|| 她們也太會(huì)買裙子了!邊看邊種草

      家居要聞

      極簡主義下的居住場域與空間

      房產(chǎn)要聞

      50億資本布局!寧德時(shí)代,突然重倉三亞!

      本地新聞

      用蘇繡的方式,打開江西婺源

      軍事要聞

      知情人士披露:美國或考慮恢復(fù)對(duì)伊朗軍事行動(dòng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 福利在线视频导航| 亚洲无人区一码二码三码| 亚洲人成网站观看在线观看 | 啦啦啦啦www日本在线观看| 久久亚洲精品三级影片| 国产成AV人片久青草影院| 亚洲成人第一网站| 天堂网亚洲综合在线| 日本黄色电影网址| 成在人线无码aⅴ免费视频| 99视频精品全部在线观看 | 久久这里都是精品一区| 中国少妇内射xxxhd免费| 天堂av成人网在线观看| 日韩1024| 无码午夜福利片在线观看| 永久免费无码AV在线网站| 2024av在线无码中文最新| 97久久久久人妻精品区一| 无码内射中文字幕岛国片| 日韩乱码人妻无码中文字幕视频| 四虎www永久在线精品| 亚洲欧美国产日韩天堂区| 中文字幕亚洲天堂| 国产美女主播一级成人毛片| 亚洲午夜福利精品久久| 色色97| 久久亚洲精品天天综合网| 国产乱妇乱子伦视频免费观看| 可以在线观看的亚洲视频| 国产精品久久久久乳精品爆| 久久精品天天中文字幕人妻| 夜夜影院未满十八勿进| 91视频网页| 国产精品一区二区AV不卡| 欧美xxxxx精品| 国产欧美精品一区二区三区-老狼 亚洲精品入口一区二区乱麻豆精品 | 亚洲综合小说另类图片五月天| 一区二区在线亚洲| 日产一区日产2区| 亚洲老女人区一区二视频|