網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI"工程師"遇到模糊需求，它會(huì)開口問，還是硬著頭皮瞎猜？

2026-05-11 17:19:27　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由Scale.AI研究團(tuán)隊(duì)主導(dǎo)的研究以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.09408，有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

假設(shè)你剛?cè)肼氁患夜荆谝惶熘鞴苋咏o你一份寫得含糊不清的需求文檔，里面既沒說清楚用戶界面要什么顏色，也沒說清楚數(shù)據(jù)庫該用哪個(gè)字段，更沒說清楚某個(gè)功能到底算不算核心需求。這時(shí)候，一個(gè)靠譜的工程師會(huì)做什么？他會(huì)先整理一下自己能自行決定的部分，然后把那些真正說不清楚的問題列出來，去找主管確認(rèn)。他不會(huì)假裝自己什么都明白，埋頭寫代碼，最后交出一份漂亮但完全跑偏的作品。

然而，當(dāng)今最強(qiáng)大的AI智能體，也就是那些被企業(yè)寄予厚望、據(jù)說能替代程序員完成復(fù)雜軟件任務(wù)的系統(tǒng)，在面對(duì)同樣的模糊需求時(shí)，幾乎無一例外地選擇了"硬著頭皮猜"。它們不問、不停、不確認(rèn)，直接開干，最終交出一份看起來合理但其實(shí)錯(cuò)得離譜的答案。Scale.AI的研究團(tuán)隊(duì)把這種現(xiàn)象稱為"判斷力缺口"，并專門設(shè)計(jì)了一套名為HIL-BENCH（Human-in-the-Loop Benchmark，人機(jī)協(xié)作基準(zhǔn)測(cè)試）的評(píng)估體系來測(cè)量它。

這項(xiàng)研究揭示的問題，正是當(dāng)前AI智能體大規(guī)模落地失敗率超過90%的核心原因之一——不是因?yàn)锳I不夠聰明，而是因?yàn)锳I不知道什么時(shí)候該開口求助。

一、為什么AI"不懂問問題"是個(gè)大麻煩

在理解這項(xiàng)研究之前，先得明白一個(gè)現(xiàn)實(shí)：今天的AI智能體其實(shí)已經(jīng)很厲害了。給它們一份寫得清清楚楚、毫無歧義的任務(wù)說明，它們能以75%到89%的成功率完成復(fù)雜的軟件工程和數(shù)據(jù)庫查詢?nèi)蝿?wù)。這個(gè)數(shù)字放在幾年前，簡直是科幻小說里才有的場景。

但現(xiàn)實(shí)中的工程任務(wù)，幾乎沒有哪個(gè)是寫得清清楚楚的。需求文檔總是缺東少西，業(yè)務(wù)邏輯總有沒說清楚的地方，技術(shù)規(guī)格里總有互相矛盾的條目。人類工程師應(yīng)對(duì)這種情況的方式，是主動(dòng)識(shí)別哪些信息缺口是自己無法靠經(jīng)驗(yàn)和推斷解決的，然后去找有相關(guān)知識(shí)的人確認(rèn)。這種能力，研究團(tuán)隊(duì)稱之為"選擇性升級(jí)"——知道什么時(shí)候該自己決定，什么時(shí)候該去問人。

現(xiàn)有的AI智能體，包括Claude Code、Codex、Cursor這些市場上最頂尖的產(chǎn)品，其實(shí)都內(nèi)置了"提問"工具。也就是說，從技術(shù)機(jī)制上看，它們是有能力開口問人的。但正如特斯拉前AI負(fù)責(zé)人、知名研究者Andrej Karpathy所觀察到的，這些智能體"不去問人類，缺乏正確的背景信息，總是試圖一次性搞定一切"。斯坦福大學(xué)教授、AI創(chuàng)業(yè)教父吳恩達(dá)也指出了同樣的核心障礙：AI無法獲取那些只存在于人腦中的知識(shí)。

更麻煩的是，現(xiàn)有的評(píng)估基準(zhǔn)根本察覺不到這個(gè)問題。SWE-Bench（軟件工程基準(zhǔn)）、HumanEval（代碼能力評(píng)估）、BIRD-SQL（數(shù)據(jù)庫查詢基準(zhǔn)）這些主流測(cè)試，給AI提供的都是寫得清清楚楚、毫無歧義的任務(wù)。在這種環(huán)境下，一個(gè)AI就算靠"蒙對(duì)了"完成了任務(wù)，和一個(gè)真正理解了任務(wù)、主動(dòng)確認(rèn)了所有細(xì)節(jié)的AI，得到的分?jǐn)?shù)是一模一樣的。這就好比用一道有標(biāo)準(zhǔn)答案的選擇題來測(cè)試學(xué)生"是否理解了這道題的含義"——即使學(xué)生完全不懂題目在說什么，只要運(yùn)氣好選對(duì)了，照樣滿分。這種評(píng)估方式，制造了一個(gè)危險(xiǎn)的假象：高分?jǐn)?shù)等于高質(zhì)量，可以放心部署。

Scale.AI的研究團(tuán)隊(duì)決定打破這個(gè)假象。

二、HIL-BENCH：專門設(shè)計(jì)來測(cè)試"知道不知道什么時(shí)候該問"

HIL-BENCH的核心設(shè)計(jì)思路，用一句話來說就是：把原本寫得清楚的任務(wù)故意"弄模糊"，然后看AI有沒有注意到，有沒有去問。

具體的做法是，研究團(tuán)隊(duì)從兩個(gè)真實(shí)的AI智能體評(píng)估數(shù)據(jù)集中選取任務(wù)：一個(gè)是針對(duì)軟件工程能力的SWE-Bench Pro，涉及在真實(shí)代碼庫中修復(fù)GitHub問題，覆蓋Python、Go、JavaScript和TypeScript等語言；另一個(gè)是針對(duì)自然語言轉(zhuǎn)SQL查詢能力的BIRD數(shù)據(jù)集，涉及金融、醫(yī)療、教育、娛樂等多個(gè)領(lǐng)域的數(shù)據(jù)庫查詢。

選定任務(wù)之后，團(tuán)隊(duì)請(qǐng)來經(jīng)過專門培訓(xùn)的領(lǐng)域?qū)＜易⑨寙T，在每個(gè)任務(wù)里故意埋入三到五個(gè)"障礙"。這里的"障礙"不是隨便加的坑，而是三種在現(xiàn)實(shí)工程環(huán)境中真實(shí)存在的信息缺口類型。

第一種叫"缺失信息"，占所有障礙的42%。這類障礙是任務(wù)說明里根本沒提到的必要參數(shù)或數(shù)值，AI必須得知道這個(gè)值才能完成任務(wù)，但靠猜是猜不出來的——比如一個(gè)解析器在失敗時(shí)應(yīng)該用什么默認(rèn)值，比如SQL查詢里"快速進(jìn)站"的時(shí)間閾值是多少秒，任務(wù)里沒說，數(shù)據(jù)庫里也沒有。

第二種叫"模糊請(qǐng)求"，占36%。這類障礙是任務(wù)說明里存在多種合理解釋，每種解釋都能實(shí)現(xiàn)，但最終結(jié)果完全不同。比如版本字符串里的"epoch段"應(yīng)該如何處理，可以有刪除、標(biāo)準(zhǔn)化、委托等多種策略，哪種才是用戶想要的？比如"中東國家"的范圍應(yīng)該包含哪些國家，不同人有不同理解。

第三種叫"矛盾信息"，占22%。這類障礙是任務(wù)說明里兩處要求互相沖突，無法同時(shí)滿足。比如一份規(guī)格說管理員角色有特殊權(quán)限，另一份文件說沒有，到底聽哪個(gè)？比如SQL查詢要求統(tǒng)計(jì)北加州學(xué)校的數(shù)據(jù)，但具體列出來的卻是南加州的學(xué)校名稱。

每一個(gè)障礙在被加入數(shù)據(jù)集之前，都必須通過七項(xiàng)嚴(yán)格的質(zhì)量審查，任何一項(xiàng)不通過都會(huì)被直接拒絕。這七項(xiàng)標(biāo)準(zhǔn)分別要求障礙必須在現(xiàn)實(shí)中合理存在、必須真正導(dǎo)致任務(wù)無法正確完成、必須有唯一明確的答案、答案空間必須足夠大以至于無法靠猜、各障礙之間必須互相獨(dú)立、答案只能從人類那里獲得而不能從任何可用信息中推斷出來、以及必須基于現(xiàn)有任務(wù)背景而非憑空捏造。此外，每個(gè)任務(wù)還要經(jīng)過五到六輪獨(dú)立的人工審核，以及若干輪自動(dòng)化評(píng)估流程，反復(fù)修改直到所有標(biāo)準(zhǔn)都滿足為止。

三、"邊做邊發(fā)現(xiàn)"：模擬真實(shí)工程的漸進(jìn)式探索

HIL-BENCH與其他類似研究的最重要區(qū)別，在于它對(duì)"漸進(jìn)式發(fā)現(xiàn)"的設(shè)計(jì)。

研究團(tuán)隊(duì)注意到，在真實(shí)的工程工作中，信息缺口通常不是一開始就擺在你面前的。你得先開始工作，寫一部分代碼，查一部分?jǐn)?shù)據(jù)庫，然后在某個(gè)具體的執(zhí)行環(huán)節(jié)才會(huì)遇到一個(gè)問題：這里需要一個(gè)參數(shù)，但沒有；這里有兩種可能的實(shí)現(xiàn)方式，但不知道哪種才是正確的；這里有兩條規(guī)則互相矛盾，不知道該遵從哪一條。只有在這個(gè)時(shí)刻，信息缺口才真正"浮出水面"。

為了模擬這種真實(shí)情況，HIL-BENCH特意把障礙設(shè)計(jì)成只有通過實(shí)際執(zhí)行和環(huán)境探索才能發(fā)現(xiàn)，而不是一眼看完任務(wù)說明就能察覺到。為了驗(yàn)證這一點(diǎn)，研究團(tuán)隊(duì)專門做了一個(gè)對(duì)照實(shí)驗(yàn)：讓Claude Opus 4.6在不使用任何環(huán)境工具（不能查看數(shù)據(jù)庫結(jié)構(gòu)、不能執(zhí)行SQL、不能檢索業(yè)務(wù)邏輯）的情況下完成任務(wù)。結(jié)果，它的障礙發(fā)現(xiàn)率從有完整工具時(shí)的61%驟降至11%。這個(gè)數(shù)字有力地證明了，絕大多數(shù)障礙確實(shí)需要AI先"動(dòng)手干活"才能被發(fā)現(xiàn)，而不是坐在那里看看需求文檔就能識(shí)別出來。

在具體的評(píng)測(cè)場景中，每個(gè)AI智能體會(huì)收到一個(gè)模糊化的任務(wù)，同時(shí)擁有一個(gè)特殊工具：ask_human()，也就是"向人類提問"。這個(gè)工具背后連接著一個(gè)凍結(jié)的開源語言模型（Llama-3.3-70B-Instruct），它充當(dāng)"知情的人類協(xié)作者"的角色。當(dāng)AI提的問題準(zhǔn)確指向了某個(gè)已注冊(cè)的障礙，這個(gè)"人類"就會(huì)返回對(duì)應(yīng)的答案；如果問題不相關(guān)或者太模糊，它就返回"irrelevant question"（無關(guān)問題）。這個(gè)機(jī)制保證了評(píng)測(cè)結(jié)果的可重復(fù)性，不會(huì)因?yàn)椴煌祟愒u(píng)估者的主觀判斷而產(chǎn)生差異。

每個(gè)任務(wù)里的多個(gè)障礙，會(huì)在AI探索任務(wù)環(huán)境的不同階段逐一浮現(xiàn)。每次遇到信息缺口，AI都面臨一個(gè)判斷：這個(gè)問題我能自己解決嗎，還是得去問人？如果它判斷正確，識(shí)別出了這是一個(gè)自己無法解決的缺口并且提了一個(gè)準(zhǔn)確的問題，就能獲得答案并繼續(xù)推進(jìn)；如果它假裝沒看見，或者自己憑感覺做了個(gè)假設(shè)，那這個(gè)障礙就永遠(yuǎn)無法被真正解決，任務(wù)也就必然失敗。

四、ASK-F1：一把專門測(cè)量"問問題質(zhì)量"的尺子

評(píng)測(cè)AI的判斷力，不能只看它最終有沒有完成任務(wù)，還要看它問問題的質(zhì)量。于是研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)專用指標(biāo)，叫做ASK-F1。

這個(gè)指標(biāo)由兩個(gè)維度構(gòu)成。第一個(gè)叫"召回率"，衡量的是AI有沒有找出所有需要問的問題——也就是說，任務(wù)里埋了五個(gè)障礙，AI有沒有都發(fā)現(xiàn)了，都問到了？發(fā)現(xiàn)得越多，召回率越高。第二個(gè)叫"精確率"，衡量的是AI所問的問題有多少是真正有價(jià)值的——也就是說，AI問了十個(gè)問題，有幾個(gè)是真正指向了某個(gè)真實(shí)障礙的？瞎問一通的問題越少，精確率越高。

ASK-F1是這兩個(gè)維度的調(diào)和平均數(shù)，也就是說，只有當(dāng)兩個(gè)維度都比較高的時(shí)候，ASK-F1才會(huì)高。這個(gè)設(shè)計(jì)有一個(gè)精妙之處：它從根本上堵死了"靠刷題量取勝"的漏洞。假如一個(gè)AI任務(wù)里有五個(gè)障礙，它通過問五十個(gè)問題把所有障礙都問到了，召回率是80%，但精確率只有8%（五十個(gè)問題里只有四個(gè)有效），那它的ASK-F1得分只有可憐的14.5%。靠題海戰(zhàn)術(shù)刷高召回率，在這個(gè)指標(biāo)下完全不管用。

這種設(shè)計(jì)背后有一個(gè)現(xiàn)實(shí)考量：如果AI每完成一個(gè)任務(wù)都要向人類提五十個(gè)問題，那比起直接讓人類自己做，AI反而更低效，協(xié)作根本無法維系。

最終，HIL-BENCH包含300個(gè)任務(wù)，其中150個(gè)來自軟件工程領(lǐng)域，150個(gè)來自SQL查詢領(lǐng)域，共埋入1131個(gè)障礙，平均每個(gè)任務(wù)3.8個(gè)。障礙類型分布為42%缺失信息、36%模糊請(qǐng)求、22%矛盾信息。數(shù)據(jù)集被分為200個(gè)公開任務(wù)和100個(gè)私有任務(wù)，私有部分作為不公開的測(cè)試集，防止模型"刷題"。

五、實(shí)驗(yàn)結(jié)果：所有頂級(jí)AI都在這里翻車了

研究團(tuán)隊(duì)對(duì)四個(gè)當(dāng)前最頂尖的前沿AI模型進(jìn)行了評(píng)測(cè)：GPT 5.3 Codex、GPT 5.4、Gemini 3.1 Pro和Claude Opus 4.6。每個(gè)模型在三種條件下分別測(cè)試：第一種是"無工具基線"，也就是任務(wù)被模糊化了，但沒有提問工具；第二種是"完整信息"，也就是所有障礙的答案都直接告訴AI，讓它在已知全部背景的情況下完成任務(wù)；第三種是"有提問工具"，也就是任務(wù)被模糊化了，同時(shí)提供ask_human()工具，讓AI自行決定何時(shí)提問。

在完整信息條件下，這些模型的表現(xiàn)非常出色。在SQL領(lǐng)域，四個(gè)模型的完成率在86%到91%之間；在軟件工程領(lǐng)域，在64%到88%之間。這說明模型本身的執(zhí)行能力是完全夠用的。

然而，當(dāng)切換到"有提問工具"條件時(shí)，結(jié)果令人震驚。在SQL領(lǐng)域，表現(xiàn)最好的Claude Opus 4.6的任務(wù)完成率從91%暴跌到39%；在軟件工程領(lǐng)域，表現(xiàn)最好的Gemini 3.1 Pro完成率從85%跌到了5%。其余模型更是慘不忍睹，GPT 5.3 Codex在軟件工程領(lǐng)域只有2%的完成率，GPT 5.4更只有1.3%。

而在"無工具基線"條件下，所有模型的完成率幾乎趨近于零，這進(jìn)一步確認(rèn)了這些任務(wù)的設(shè)計(jì)是有效的：任務(wù)確實(shí)需要外部信息才能完成，障礙確實(shí)無法靠猜或推斷繞過。

用ASK-F1來衡量，SQL領(lǐng)域的平均分是40.5%，軟件工程領(lǐng)域是37.4%。沒有任何一個(gè)模型進(jìn)入了"提問準(zhǔn)確且覆蓋全面"的優(yōu)良區(qū)間。

從召回率和精確率的二維分解來看，不同模型呈現(xiàn)出截然不同的失敗畫像。GPT系列兩個(gè)模型在兩個(gè)領(lǐng)域都展現(xiàn)出低召回率的特點(diǎn)：它們很少主動(dòng)提問，更傾向于直接開始執(zhí)行，根本沒有意識(shí)到需要確認(rèn)什么信息。Gemini在軟件工程領(lǐng)域的表現(xiàn)和GPT類似，但在SQL領(lǐng)域，它的召回率相對(duì)較高，問了比較多的問題，但精確率很低，問的大多是過于寬泛或指向不明的問題。Claude在SQL領(lǐng)域達(dá)到了相對(duì)合理的平衡，召回率61.2%，精確率54.3%，但在軟件工程領(lǐng)域，它的召回率降到34.6%，精確率更是只有26.3%，兩個(gè)領(lǐng)域之間的落差是所有模型中最大的。

六、為什么它們會(huì)這樣失敗？三種截然不同的問題模式

僅僅知道"它們失敗了"還不夠，研究團(tuán)隊(duì)對(duì)超過3600條失敗記錄進(jìn)行了詳細(xì)分析，用一個(gè)AI評(píng)判系統(tǒng)將每條記錄歸類到三個(gè)能力維度（工具使用、邏輯推理、目標(biāo)對(duì)齊）和各自的失敗子模式（準(zhǔn)確性錯(cuò)誤、自我評(píng)估錯(cuò)誤、策略錯(cuò)誤、完成度錯(cuò)誤）。這套分析框架在多個(gè)項(xiàng)目中獨(dú)立開發(fā)，評(píng)判系統(tǒng)的自我一致性指標(biāo)達(dá)到0.928，與人工判斷的比對(duì)也經(jīng)過了持續(xù)校準(zhǔn)。

GPT 5.4和GPT 5.3 Codex呈現(xiàn)出"錯(cuò)誤執(zhí)行、充滿自信"的失敗模式。這兩個(gè)模型在工具使用和邏輯推理兩個(gè)維度上，都以"準(zhǔn)確性錯(cuò)誤"為主要失敗來源——也就是說，它們不是因?yàn)椴恢涝撛趺醋龆〉模且驗(yàn)榛阱e(cuò)誤的前提信息在做對(duì)的事。在SQL領(lǐng)域，73%到93%的工具使用失敗都是"調(diào)用了正確的工具，但用了錯(cuò)誤的參數(shù)"；76%到88%的邏輯推理失敗都是"把錯(cuò)誤的信念貫穿到了整個(gè)推理鏈里"。更關(guān)鍵的是，加入提問工具幾乎不改變這個(gè)失敗模式，因?yàn)檫@兩個(gè)模型從一開始就沒有"發(fā)現(xiàn)"需要問什么，自然也不會(huì)去問。

Claude Opus 4.6呈現(xiàn)出"能發(fā)現(xiàn)問題、但不采取行動(dòng)"的失敗模式。Claude是所有被測(cè)模型中唯一會(huì)在推理記錄里明確說出"這個(gè)任務(wù)我覺得無法完成"的模型，它在目標(biāo)對(duì)齊維度上的自我評(píng)估失敗率高達(dá)45%——也就是說，幾乎一半的失敗案例里，Claude自己都知道輸出是有問題的，但還是提交了。同時(shí)，Claude在工具使用維度上有82%的"完成度失敗"，意味著它頻繁地進(jìn)行大量探索，消耗了其他模型五倍之多的計(jì)算資源，卻始終沒有執(zhí)行那個(gè)關(guān)鍵的最終步驟。它能感知到不確定性，但感知到之后，既沒有去問清楚，也沒有在知情的情況下停下來，而是繼續(xù)探索、繼續(xù)卡住、然后提交一個(gè)自己都不滿意的答案。

Gemini 3.1 Pro呈現(xiàn)出"對(duì)環(huán)境高度敏感、容易被外部信號(hào)影響"的失敗模式。它在兩個(gè)領(lǐng)域之間的表現(xiàn)差異是所有模型中最大的。在SQL領(lǐng)域，Gemini有很高的邏輯自我評(píng)估失敗率，也就是說它經(jīng)常不確定自己的答案是不是對(duì)的；但一旦提供了提問工具，它的行為發(fā)生了最戲劇性的轉(zhuǎn)變：工具使用維度的"完成度失敗"從56%暴降至18%，也就是說它從"卡在探索階段、沒有執(zhí)行"變成了"更愿意動(dòng)手執(zhí)行"。問題是，執(zhí)行之后"準(zhǔn)確性失敗"從38%飆升至82%，也就是說它動(dòng)手了，但動(dòng)錯(cuò)了。提問工具讓Gemini從"不敢出手"變成了"出手但出錯(cuò)"，失敗的形態(tài)變了，但失敗本身并沒有消失。在軟件工程領(lǐng)域，這種"被外部信號(hào)糾正"的能力幾乎消失，表現(xiàn)更接近于其他模型。

研究團(tuán)隊(duì)還注意到，"提問工具改變了失敗的形態(tài)，而不是減少了失敗的次數(shù)"。這是一個(gè)重要的洞察：擁有提問能力，并不等于擁有使用提問能力的判斷力。這個(gè)工具，是在每個(gè)模型原有的失敗模式上額外疊加的一項(xiàng)能力，而不是一個(gè)能從根本上解決問題的開關(guān)。

七、判斷力可以被訓(xùn)練出來嗎？強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)的答案

發(fā)現(xiàn)了這么多問題，研究團(tuán)隊(duì)沒有停下來，而是進(jìn)一步追問：這種"知道什么時(shí)候該問"的判斷力，能不能通過訓(xùn)練來改善？

他們選擇了Qwen3 32B作為基礎(chǔ)模型，使用LoRA（一種參數(shù)高效的微調(diào)技術(shù)，可以理解為在原有模型上貼一層"專項(xiàng)訓(xùn)練補(bǔ)丁"）和SkyRL框架進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練數(shù)據(jù)是120個(gè)HIL-BENCH任務(wù)，驗(yàn)證數(shù)據(jù)是另外30個(gè)未見過的任務(wù)，SQL和軟件工程兩個(gè)領(lǐng)域分別獨(dú)立訓(xùn)練。

訓(xùn)練的核心是一套精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制，因?yàn)锳SK-F1這個(gè)指標(biāo)本身雖然是個(gè)好的目標(biāo)，但它是一個(gè)終局性的整體評(píng)分，很難直接用來給訓(xùn)練過程中的每一步行為提供反饋。研究團(tuán)隊(duì)把它分解成兩個(gè)互補(bǔ)的獎(jiǎng)勵(lì)信號(hào)。

第一個(gè)是"每步獎(jiǎng)勵(lì)"，針對(duì)每一次ask_human()調(diào)用立即給出反饋：如果這個(gè)問題準(zhǔn)確指向了某個(gè)已注冊(cè)的障礙，給+0.3分；如果這個(gè)問題無關(guān)緊要或者重復(fù)問了已經(jīng)解決的障礙，扣-0.1分。這種非對(duì)稱的設(shè)計(jì)——獎(jiǎng)勵(lì)比懲罰大三倍——是故意的，目的是鼓勵(lì)A(yù)I探索問題空間，同時(shí)對(duì)無效問題有所約束。這個(gè)組件主要訓(xùn)練的是"精確率"方向的能力。

第二個(gè)是"終局獎(jiǎng)勵(lì)"，在整個(gè)任務(wù)完成時(shí)給出：已發(fā)現(xiàn)的障礙數(shù)量除以總障礙數(shù)量，但有一個(gè)門檻條件——只有當(dāng)AI至少問出了一個(gè)有效問題，這個(gè)獎(jiǎng)勵(lì)才會(huì)計(jì)算，否則為零。門檻條件的作用是防止模型學(xué)會(huì)"什么都不問"的退化策略。這個(gè)組件主要訓(xùn)練的是"召回率"方向的能力。

總獎(jiǎng)勵(lì)是兩者之和，讓AI在探索的每一步都能得到即時(shí)反饋，同時(shí)也為整體覆蓋率保持激勵(lì)。

結(jié)果非常值得關(guān)注。訓(xùn)練后的Qwen3 32B，在SQL領(lǐng)域的ASK-F1從18%提升至46%，任務(wù)完成率從11%提升至24%；在軟件工程領(lǐng)域，ASK-F1從4%提升至21%，任務(wù)完成率從1%提升至7%。

更關(guān)鍵的是跨領(lǐng)域遷移實(shí)驗(yàn)。研究團(tuán)隊(duì)測(cè)試了一個(gè)只在SQL任務(wù)上訓(xùn)練的模型，在軟件工程任務(wù)上的表現(xiàn)；以及一個(gè)只在軟件工程任務(wù)上訓(xùn)練的模型，在SQL任務(wù)上的表現(xiàn)。兩個(gè)方向都有正向遷移，也就是說，在一個(gè)領(lǐng)域里學(xué)到的判斷力，能夠遷移到完全不同的另一個(gè)領(lǐng)域。這是整個(gè)研究中最有力的一個(gè)發(fā)現(xiàn)：這個(gè)模型學(xué)到的不是"在什么SQL場景下該問問題"或者"在什么代碼庫情境下該問問題"，而是一種更通用的能力——識(shí)別出自己無法獨(dú)立解決的不確定性，并據(jù)此采取行動(dòng)。

這也意味著，"判斷力"不是某個(gè)領(lǐng)域的特定知識(shí)，而是一種可以跨領(lǐng)域泛化的認(rèn)知技能，而且這種技能是可以通過正確設(shè)計(jì)的訓(xùn)練信號(hào)來培養(yǎng)的。

八、一張4格表格，揭示AI真正的能力版圖

研究團(tuán)隊(duì)在論文結(jié)尾提出了一個(gè)簡潔但深刻的分類框架，把所有AI智能體的行為歸入一個(gè)兩維矩陣：橫軸是任務(wù)結(jié)果（失敗或成功），縱軸是行為策略（不問人或按需提問）。

在"不問、失敗"的格子里，是最危險(xiǎn)的一類：充滿自信地產(chǎn)出看起來合理但實(shí)際上完全錯(cuò)誤的答案。這是當(dāng)前絕大多數(shù)前沿AI智能體所在的位置，也是超過90%企業(yè)AI試點(diǎn)項(xiàng)目失敗的核心原因。

在"不問、成功"的格子里，是靠運(yùn)氣碰對(duì)了的類型：答案恰好是對(duì)的，但這種正確性是脆弱的、不可重現(xiàn)的，換一個(gè)略有不同的任務(wù)場景就會(huì)失敗。

在"亂問、成功"的格子里，是過度依賴人工確認(rèn)的類型：每個(gè)任務(wù)問幾十個(gè)問題，雖然最終成功了，但比起直接讓人類做，效率更低，人力成本更高，違背了用AI提效的初衷。

只有在"按需提問、成功"的格子里，才是真正實(shí)用、可靠、值得大規(guī)模部署的AI智能體：它能自主完成自己有把握完成的部分，同時(shí)在遇到真正無法獨(dú)立解決的信息缺口時(shí)，精準(zhǔn)地提出正確的問題，獲取答案，繼續(xù)推進(jìn)。研究團(tuán)隊(duì)把這種能力稱為"選擇性升級(jí)"。

HIL-BENCH的意義，正在于它讓這四個(gè)格子首次變得可以被測(cè)量和區(qū)分。在此之前，所有主流基準(zhǔn)測(cè)試都把這四種情況混在一起，只看最終的任務(wù)完成率，根本區(qū)分不出來。一個(gè)靠蒙對(duì)了完成任務(wù)的AI，和一個(gè)真正理解了任務(wù)、主動(dòng)確認(rèn)了關(guān)鍵信息的AI，在舊有的評(píng)估體系里得到的是一樣的分?jǐn)?shù)。

研究團(tuán)隊(duì)最后說了一段令人回味的話：無論這些模型變得多么強(qiáng)大，總會(huì)有一些背景信息是鎖在某個(gè)具體的人腦子里或者某個(gè)組織的隱性知識(shí)庫里的，是任何模型都無法從環(huán)境中自行推斷出來的。對(duì)于所有真實(shí)世界的應(yīng)用場景而言，人類永遠(yuǎn)都會(huì)在這個(gè)循環(huán)里。真正的問題是：AI是否知道這一點(diǎn)？現(xiàn)在有了HIL-BENCH，我們至少有了一種測(cè)量方式來找到答案。

Q&A

Q1：HIL-BENCH是如何防止AI靠大量提問來刷高分?jǐn)?shù)的？

A：HIL-BENCH使用的核心指標(biāo)ASK-F1是精確率和召回率的調(diào)和平均數(shù)。精確率衡量AI所提問題中有多少是真正指向?qū)嶋H信息缺口的，召回率衡量AI找到了多少個(gè)需要問的關(guān)鍵問題。由于調(diào)和平均數(shù)的特性，只有兩個(gè)維度都高才能得到高分。假如一個(gè)任務(wù)有五個(gè)障礙，AI靠問五十個(gè)問題把所有障礙都問到了，召回率是80%，但精確率只有8%，ASK-F1得分只有14.5%，完全無法通過題海戰(zhàn)術(shù)取得好成績。

Q2：Claude、GPT和Gemini在HIL-BENCH上各自有什么不同的失敗特點(diǎn)？

A：三個(gè)模型呈現(xiàn)出截然不同的失敗模式。GPT系列模型的問題是"錯(cuò)誤執(zhí)行、充滿自信"，它們從不主動(dòng)提問，基于錯(cuò)誤前提直接行動(dòng)，加入提問工具也不改變這個(gè)模式，因?yàn)樗鼈兏緵]意識(shí)到有什么需要問的。Claude的問題是"能感知不確定性、但不轉(zhuǎn)化為行動(dòng)"，它是唯一會(huì)明確說出"這個(gè)任務(wù)無法完成"的模型，但說完還是照樣提交了錯(cuò)誤答案，同時(shí)消耗了其他模型五倍的計(jì)算資源。Gemini的問題是"對(duì)外部信號(hào)敏感但容易執(zhí)行偏差"，擁有提問工具后它變得更愿意動(dòng)手，但動(dòng)手之后的準(zhǔn)確率反而下降了。

Q3：HIL-BENCH強(qiáng)化學(xué)習(xí)訓(xùn)練的結(jié)果能說明AI的判斷力可以被提升嗎？

A：可以，而且存在跨領(lǐng)域遷移。研究團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)對(duì)Qwen3 32B進(jìn)行訓(xùn)練后，SQL領(lǐng)域的ASK-F1從18%提升到46%，任務(wù)完成率從11%提升到24%；軟件工程領(lǐng)域的ASK-F1從4%提升到21%，任務(wù)完成率從1%提升到7%。更重要的是，只在SQL任務(wù)上訓(xùn)練的模型，在軟件工程任務(wù)上的表現(xiàn)也有提升，反之亦然。這說明模型學(xué)到的不是某個(gè)領(lǐng)域的特定經(jīng)驗(yàn)，而是識(shí)別和處理不可解決的不確定性這種通用能力，證明判斷力是可訓(xùn)練的通用技能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.