<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      UCLA與亞馬遜突破:AI助手實(shí)現(xiàn)思維糾偏能力提升避免邏輯混亂

      0
      分享至


      這項(xiàng)由加利福尼亞大學(xué)洛杉磯分校與亞馬遜公司聯(lián)合開(kāi)展的研究,發(fā)表于2026年第43屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2026),會(huì)議地點(diǎn)為韓國(guó)首爾,收錄于PMLR 306論文集。論文編號(hào)為arXiv:2605.02178,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢(xún)完整論文。

      研究概要:一個(gè)越想越亂的AI,和一群決心幫它"冷靜下來(lái)"的研究者

      假設(shè)你在網(wǎng)上購(gòu)物,雇了一個(gè)助手幫你找一件特定的紅色棉質(zhì)女款襯衫,價(jià)格低于40美元。你滿(mǎn)心期待地等著它給你一個(gè)答案,結(jié)果發(fā)現(xiàn)它開(kāi)始滔滔不絕地自言自語(yǔ)——反復(fù)核對(duì)面料是不是純棉、顏色是不是正紅、尺碼有沒(méi)有XL……說(shuō)了足足500個(gè)字之后,話(huà)還沒(méi)說(shuō)完,時(shí)間已經(jīng)到了,助手根本沒(méi)來(lái)得及告訴你要點(diǎn)哪個(gè)按鈕。這還不算完,下一輪它又從頭重復(fù)同樣的廢話(huà),在同一個(gè)錯(cuò)誤路上打轉(zhuǎn)。

      這個(gè)荒誕的場(chǎng)景,其實(shí)正是當(dāng)今最先進(jìn)的AI助手在完成復(fù)雜任務(wù)時(shí)頻繁上演的真實(shí)困境。研究團(tuán)隊(duì)將這種行為稱(chēng)為"猶豫"——AI不是在認(rèn)真解決問(wèn)題,而是在無(wú)休止地自我糾結(jié),既無(wú)法減少不確定性,也無(wú)法推進(jìn)任務(wù)進(jìn)展。

      為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一套名為T(mén)?PO(Token- and Turn-level Policy Optimization,即詞元與輪次雙層策略?xún)?yōu)化)的方法。簡(jiǎn)單來(lái)說(shuō),這套方法在AI每次生成內(nèi)容時(shí),從兩個(gè)層面同時(shí)把關(guān):一是盯住每個(gè)字詞的生成質(zhì)量,當(dāng)AI開(kāi)始"廢話(huà)連篇"時(shí)及時(shí)叫停;二是在多輪對(duì)話(huà)的層面,當(dāng)AI陷入無(wú)效的重復(fù)循環(huán)時(shí),果斷重新來(lái)過(guò)。

      實(shí)驗(yàn)結(jié)果相當(dāng)亮眼。在模擬網(wǎng)上購(gòu)物的WebShop測(cè)試中,T?PO讓任務(wù)成功率從73.83%一路提升到81.64%,同時(shí)大幅減少了訓(xùn)練過(guò)程中常見(jiàn)的崩潰現(xiàn)象。在模擬家務(wù)場(chǎng)景的ALFWorld測(cè)試中,T?PO比此前最佳方案提升了約8到12個(gè)百分點(diǎn)。這些數(shù)字背后,是AI助手從一個(gè)"焦慮型廢話(huà)王"蛻變?yōu)?沉著型行動(dòng)派"的過(guò)程。

      一、 AI為什么會(huì)"想太多":從反復(fù)橫跳到徹底宕機(jī)

      要理解這項(xiàng)研究解決的問(wèn)題,先要知道今天的AI助手是怎么工作的。

      現(xiàn)代AI助手完成一個(gè)任務(wù),通常不是一問(wèn)一答那么簡(jiǎn)單,而是要經(jīng)歷多個(gè)來(lái)回:搜索一下、看看結(jié)果、點(diǎn)進(jìn)去、再看看、再?zèng)Q定下一步……就像你在網(wǎng)上購(gòu)物時(shí),從搜索到付款要經(jīng)過(guò)好幾個(gè)頁(yè)面。這種"多輪交互"的工作方式,給AI帶來(lái)了很大的挑戰(zhàn)。

      其中一個(gè)核心挑戰(zhàn)叫做"信用分配"——當(dāng)任務(wù)最終失敗或成功時(shí),AI需要知道是哪一步做對(duì)了、哪一步做錯(cuò)了。可問(wèn)題在于,最終的獎(jiǎng)勵(lì)往往只在任務(wù)結(jié)束時(shí)才會(huì)給出,就像一個(gè)學(xué)生考完試才知道成績(jī),卻無(wú)法得知每道題答得怎么樣。這種稀疏的反饋信號(hào),讓AI很難從錯(cuò)誤中學(xué)習(xí)。

      另一個(gè)挑戰(zhàn)來(lái)自效率與穩(wěn)定的矛盾。為了讓AI學(xué)得更快,研究人員通常會(huì)讓它同時(shí)跑很多個(gè)"練習(xí)任務(wù)",然后批量更新參數(shù)。但這意味著AI學(xué)到的新知識(shí),和它正在執(zhí)行的舊任務(wù)之間,始終存在一個(gè)時(shí)間差——用過(guò)時(shí)的自己去做任務(wù),然后用做完的結(jié)果來(lái)更新現(xiàn)在的自己,這個(gè)循環(huán)本身就容易失控。

      研究團(tuán)隊(duì)通過(guò)分析大量訓(xùn)練軌跡,找到了訓(xùn)練崩潰的根本原因:AI陷入了"猶豫"。在字詞生成的層面,AI會(huì)產(chǎn)生大量信息含量極低的內(nèi)容,就像一個(gè)演講者明明已經(jīng)說(shuō)完了要點(diǎn),卻還在用各種廢話(huà)填充時(shí)間,而這些廢話(huà)會(huì)把真正有用的判斷淹沒(méi)在噪音里。在任務(wù)輪次的層面,AI有時(shí)在最初幾步就走錯(cuò)了方向,卻沒(méi)有任何機(jī)制讓它意識(shí)到這一點(diǎn),于是它一輪又一輪地重復(fù)同樣毫無(wú)意義的操作,把有限的資源全部浪費(fèi)在死胡同里。

      這兩種"猶豫"疊加起來(lái),讓AI的訓(xùn)練過(guò)程變得極不穩(wěn)定——梯度爆炸(可以理解為AI更新參數(shù)時(shí)用力過(guò)猛,直接把自己改崩)和KL散度飆升(可以理解為新舊版本的AI差異變得太大,導(dǎo)致學(xué)習(xí)失控)頻繁出現(xiàn),最終讓原本應(yīng)該越來(lái)越聰明的AI反而越來(lái)越差,甚至徹底失能。

      二、 給AI安裝一個(gè)"內(nèi)心溫度計(jì)":自校準(zhǔn)不確定性信號(hào)

      研究團(tuán)隊(duì)的第一步,是給AI裝上一個(gè)能實(shí)時(shí)感知自身狀態(tài)的"傳感器"。

      在AI生成每一個(gè)字詞時(shí),它實(shí)際上是在對(duì)整個(gè)詞匯表做概率分配——每個(gè)詞被選中的可能性有多大。這種概率分布的形態(tài),直接反映了AI當(dāng)前的"信心狀態(tài)"。當(dāng)AI非常確定下一個(gè)詞應(yīng)該是什么時(shí),概率分布會(huì)非常集中,像一座高聳的尖峰;當(dāng)AI不確定時(shí),概率會(huì)分散開(kāi)來(lái),像一片平緩的丘陵。

      傳統(tǒng)上有兩種方法來(lái)衡量這種不確定性:一種叫做"香農(nóng)熵",可以理解為概率分布有多"分散";另一種叫做"置信度",直接看AI對(duì)最可能那個(gè)詞有多大把握。但兩者都有盲區(qū)。

      熵的問(wèn)題在于,它對(duì)極端情況不夠敏感。由于AI的詞匯表可以多達(dá)15萬(wàn)個(gè)詞(比如Qwen3模型就有約15.2萬(wàn)個(gè)詞),即便AI的分布已經(jīng)非常集中了,熵的數(shù)值看起來(lái)依然差不多。打個(gè)比方,假設(shè)有100個(gè)人投票,99個(gè)人投給同一個(gè)候選人和50個(gè)人投給同一個(gè)候選人,從"票數(shù)是否集中"這個(gè)角度看,差異是顯著的,但如果候選人是15萬(wàn)個(gè),這種差異就會(huì)被稀釋得幾乎看不見(jiàn)。

      置信度的問(wèn)題則在于它只關(guān)注"冠軍",完全忽視"亞軍"和"季軍"。兩種截然不同的概率分布,只要最高那個(gè)詞的概率相同,置信度就會(huì)完全相同——盡管這兩種分布背后AI的狀態(tài)可能大相徑庭。

      為了解決這兩個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種"自校準(zhǔn)不確定性信號(hào)",記為Mt。它把熵和置信度分別歸一化(統(tǒng)一到同一個(gè)尺度),然后用一個(gè)可以調(diào)節(jié)的比例因子把二者融合。研究發(fā)現(xiàn),當(dāng)這個(gè)比例偏向0.4時(shí)(即熵占40%,置信度占60%),效果最好。

      這個(gè)融合信號(hào)的優(yōu)勢(shì)可以從直觀圖形上看出來(lái):純熵的等高線(xiàn)圖在接近均勻分布的區(qū)域幾乎無(wú)法區(qū)分細(xì)微差異,純置信度對(duì)尾部概率分布完全不敏感,而融合后的Mt產(chǎn)生了非線(xiàn)性的等高線(xiàn),能夠同時(shí)區(qū)分出頂端概率高低與尾部分布形態(tài),覆蓋了兩者各自的盲區(qū)。

      這個(gè)信號(hào)的另一個(gè)重要特性是它會(huì)隨著生成過(guò)程動(dòng)態(tài)變化。研究團(tuán)隊(duì)觀察到,在AI生成一段回答的過(guò)程中,Mt的軌跡通常是先升后降——它先進(jìn)入一個(gè)高度不確定的區(qū)域(正在思考),然后逐漸穩(wěn)定下來(lái)(已經(jīng)確定方向)。而那些不確定性最高的詞,往往恰恰是最關(guān)鍵的任務(wù)相關(guān)詞,比如產(chǎn)品名稱(chēng)、屬性描述符等。這個(gè)觀察為后續(xù)兩個(gè)干預(yù)機(jī)制提供了理論基礎(chǔ)。

      三、 給AI的內(nèi)心獨(dú)白設(shè)一個(gè)"說(shuō)夠了就停"的開(kāi)關(guān):詞元級(jí)思維干預(yù)

      有了Mt這個(gè)信號(hào),研究團(tuán)隊(duì)做的第一件事,是解決AI"想太多"的毛病。

      當(dāng)AI在生成內(nèi)部推理過(guò)程(即包裹在"思考標(biāo)簽"里的那部分內(nèi)容)時(shí),它有時(shí)會(huì)一直說(shuō)下去,遠(yuǎn)遠(yuǎn)超出真正有用的部分。就像一個(gè)人解題時(shí),把有效的思路寫(xiě)完了,卻還在繼續(xù)寫(xiě)"我再想想……也許還有另一種可能……不對(duì),讓我再考慮一下……",這些后續(xù)的自言自語(yǔ)不僅浪費(fèi)紙,還會(huì)讓最終答案被掩蓋。

      詞元級(jí)思維干預(yù)(TTI)的邏輯是這樣的:研究團(tuán)隊(duì)用一個(gè)滑動(dòng)窗口,持續(xù)監(jiān)測(cè)Mt相鄰兩步之間的變化量,記為△t。如果這個(gè)變化量在連續(xù)N步內(nèi)的平均值都低于一個(gè)閾值ε,就說(shuō)明AI的"思考"已經(jīng)在原地打轉(zhuǎn),沒(méi)有帶來(lái)新的信息增益了。此刻,系統(tǒng)會(huì)直接向AI的輸出機(jī)制注入一個(gè)強(qiáng)制指令:把接下來(lái)那個(gè)詞的概率全部集中到"結(jié)束思考"這個(gè)特殊標(biāo)記上,概率為1,讓AI立刻停止內(nèi)心獨(dú)白,進(jìn)入行動(dòng)階段。

      一個(gè)自然的問(wèn)題是:為什么不在Mt達(dá)到峰值時(shí)就停?峰值代表不確定性最高,直覺(jué)上似乎在那之后生成的內(nèi)容都是多余的。但研究團(tuán)隊(duì)的分析顯示,不確定性最高的詞往往分屬兩類(lèi):一類(lèi)是推理轉(zhuǎn)折詞(類(lèi)似"啊,我明白了!"這種節(jié)點(diǎn)),另一類(lèi)是任務(wù)關(guān)鍵詞(比如具體的產(chǎn)品名稱(chēng))。如果在峰值時(shí)就截?cái)啵芸赡軙?huì)切掉關(guān)鍵的產(chǎn)品信息。

      而采用滑動(dòng)窗口均值的方式,則能有效過(guò)濾掉孤立的高不確定性詞,只在"持續(xù)穩(wěn)定低變化"時(shí)才觸發(fā)停止——這樣就保住了那些分散在句子各處的關(guān)鍵詞,同時(shí)剔除了真正的廢話(huà)尾巴。

      這個(gè)機(jī)制還設(shè)有兩道保險(xiǎn):其一,每次生成中只允許觸發(fā)一次,避免反復(fù)打斷;其二,設(shè)置一個(gè)最大生成長(zhǎng)度,即使滑動(dòng)窗口條件從未觸發(fā),到了上限也會(huì)強(qiáng)制結(jié)束,確保不會(huì)無(wú)限生成。

      實(shí)驗(yàn)數(shù)據(jù)顯示,去掉這個(gè)機(jī)制后,任務(wù)成功率從81.64%降至73.27%,說(shuō)明適時(shí)"打斷"AI的自說(shuō)自話(huà),對(duì)任務(wù)完成質(zhì)量有實(shí)質(zhì)性的提升。

      四、 當(dāng)AI在死路上原地轉(zhuǎn)圈:輪次級(jí)動(dòng)態(tài)重采樣

      光管住AI每次說(shuō)話(huà)時(shí)的冗余內(nèi)容還不夠。更大的麻煩發(fā)生在對(duì)話(huà)輪次的層面。

      以前面那個(gè)購(gòu)物場(chǎng)景為例:AI在第一輪搜索后,點(diǎn)進(jìn)了一個(gè)明顯不符合要求的產(chǎn)品,然后退回搜索頁(yè),再用完全相同的關(guān)鍵詞搜索一遍,又點(diǎn)進(jìn)同一個(gè)產(chǎn)品……在案例分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)AI的輪次3和輪次4幾乎一模一樣,做的是完全重復(fù)的無(wú)效操作,完全沒(méi)有利用上一輪的信息來(lái)調(diào)整策略。這種"原地踏步"的行為,就是輪次級(jí)的猶豫。

      要在缺乏逐輪獎(jiǎng)勵(lì)信號(hào)的情況下判斷一輪對(duì)話(huà)是否有價(jià)值,是個(gè)難題。研究團(tuán)隊(duì)想到了一個(gè)巧妙的辦法:把每一輪對(duì)話(huà)的Mt信號(hào)聚合起來(lái),計(jì)算整輪的"不確定性指紋"Φk(具體計(jì)算方式是所有詞元Mt值的幾何平均,即所有Mt連乘后開(kāi)T次方根)。然后,比較相鄰兩輪的Φk是否有顯著變化,差值記為Γk。

      這個(gè)邏輯背后的直覺(jué)是:如果AI真的在有效探索,每一輪面對(duì)的環(huán)境狀態(tài)不同、處理的信息不同,它的內(nèi)部不確定性結(jié)構(gòu)應(yīng)該也會(huì)相應(yīng)變化,Γk應(yīng)該比較大。但如果AI只是在重復(fù),它每輪的"不確定性指紋"會(huì)高度相似,Γk會(huì)很小。

      當(dāng)Γk低于閾值η時(shí),系統(tǒng)判定這一輪是"無(wú)效探索",直接丟棄這輪生成的內(nèi)容,在相同狀態(tài)下重新生成一次。這個(gè)重生成過(guò)程會(huì)一直持續(xù),直到產(chǎn)生一個(gè)Γk足夠大的結(jié)果,或者達(dá)到重采樣預(yù)算上限為止。

      移除這個(gè)機(jī)制后,實(shí)驗(yàn)中任務(wù)得分從93.84降至72.40,成功率從81.64%降至63.67%,是所有組件中影響最大的一個(gè)——這說(shuō)明輪次級(jí)的重復(fù)循環(huán)是造成訓(xùn)練低效最核心的問(wèn)題所在。

      五、 其他輔助設(shè)計(jì):讓AI從一開(kāi)始就走對(duì)路

      除了兩個(gè)核心干預(yù)機(jī)制,T?PO還包含幾個(gè)配套設(shè)計(jì),共同構(gòu)成完整的訓(xùn)練框架。

      在訓(xùn)練啟動(dòng)階段,研究團(tuán)隊(duì)采用了一種叫做"拒絕采樣微調(diào)"(RFT)的冷啟動(dòng)策略。具體做法是先讓AI在目標(biāo)環(huán)境里自由跑一批任務(wù),只保留那些最終得分超過(guò)閾值的高質(zhì)量軌跡,然后用這些軌跡做一輪監(jiān)督學(xué)習(xí),讓AI從一開(kāi)始就有一個(gè)"基本靠譜"的行為基礎(chǔ)。實(shí)驗(yàn)證明,沒(méi)有這個(gè)冷啟動(dòng),任務(wù)分?jǐn)?shù)會(huì)從93.84降至79.28,成功率從81.64%降至61.32%。這是因?yàn)樵缙谟?xùn)練階段AI容易生成格式混亂的輸出,這些噪音會(huì)污染后續(xù)的學(xué)習(xí)過(guò)程。不過(guò)研究團(tuán)隊(duì)也發(fā)現(xiàn),RFT的輪數(shù)不能太多——超過(guò)五輪后,AI開(kāi)始把推理能力"遺忘"掉,反而不利于后續(xù)的強(qiáng)化學(xué)習(xí)。

      在處理長(zhǎng)軌跡時(shí),直接把整個(gè)任務(wù)歷史塞進(jìn)AI的上下文窗口會(huì)導(dǎo)致序列極長(zhǎng)、計(jì)算量爆炸。研究團(tuán)隊(duì)因此引入了"記憶上下文窗口"機(jī)制,讓AI只保留最近P輪的歷史記錄,而不是整個(gè)任務(wù)的完整歷史。這在降低計(jì)算負(fù)擔(dān)的同時(shí),也避免了過(guò)早輪次的噪音信息干擾當(dāng)前判斷。

      在獎(jiǎng)勵(lì)分配上,研究團(tuán)隊(duì)采用了時(shí)間折扣機(jī)制:越早的行動(dòng),其獎(jiǎng)勵(lì)折扣越多,越近的行動(dòng)則權(quán)重越高。這樣既能傳遞最終結(jié)果的成敗信號(hào),又能讓AI有機(jī)會(huì)從每一步的后續(xù)影響中學(xué)習(xí)。

      在策略更新算法上,T?PO采用了"組內(nèi)組"優(yōu)勢(shì)估計(jì)(GiGPO)的思路:先在整個(gè)軌跡組的層面計(jì)算相對(duì)優(yōu)勢(shì),再在同一環(huán)境狀態(tài)下不同行動(dòng)之間計(jì)算細(xì)粒度優(yōu)勢(shì),最后把二者加權(quán)融合,同時(shí)用KL散度懲罰項(xiàng)約束新舊策略之間的差異不能太大,防止AI一次更新過(guò)猛把自己改壞。

      六、 實(shí)戰(zhàn)考驗(yàn):在購(gòu)物、家務(wù)和問(wèn)答三個(gè)戰(zhàn)場(chǎng)上的表現(xiàn)

      研究團(tuán)隊(duì)在三個(gè)性質(zhì)各異的環(huán)境中對(duì)T?PO進(jìn)行了系統(tǒng)評(píng)測(cè),用的是Qwen3-4B和Qwen3-8B兩個(gè)規(guī)模的基礎(chǔ)模型。

      WebShop是一個(gè)模擬真實(shí)電商平臺(tái)的購(gòu)物環(huán)境,包含超過(guò)110萬(wàn)件商品和1.2萬(wàn)條用戶(hù)指令。AI需要搜索、瀏覽、比較,最終完成購(gòu)買(mǎi)。這個(gè)環(huán)境的特點(diǎn)是行動(dòng)空間龐大、任務(wù)約束復(fù)雜(顏色、尺碼、價(jià)格、材質(zhì)都要同時(shí)滿(mǎn)足),對(duì)細(xì)粒度決策的要求很高。在Qwen3-4B基礎(chǔ)上,T?PO達(dá)到了93.84的任務(wù)分?jǐn)?shù)和81.64%的成功率,相比此前最佳的GiGPO+DAPO組合(任務(wù)分?jǐn)?shù)86.54,成功率74.02%)有顯著提升。更重要的是,T?PO的方差極小(±0.22和±0.39),而對(duì)照組的方差動(dòng)輒±9到±10,說(shuō)明T?PO訓(xùn)練過(guò)程穩(wěn)定得多。在Qwen3-8B基礎(chǔ)上,這一趨勢(shì)同樣成立,成功率達(dá)到82.42%。

      ALFWorld是一個(gè)文本家務(wù)場(chǎng)景,AI需要理解自然語(yǔ)言目標(biāo)(比如"把蘋(píng)果放進(jìn)冰箱"),在虛擬房間里一步步找到物體、執(zhí)行操作,直到目標(biāo)完成。這個(gè)環(huán)境包含3827個(gè)任務(wù)實(shí)例,分布在拾取放置、燈下檢查、清潔放置、加熱放置、冷卻放置、拾取兩個(gè)放置六大類(lèi)別中。T?PO的總成功率達(dá)到90.23%,在"加熱放置"這一類(lèi)別中更是高達(dá)98.33%,全面領(lǐng)先于其他方法。相比之下,即便是號(hào)稱(chēng)當(dāng)時(shí)最強(qiáng)的閉源模型Claude Sonnet 4,在這個(gè)任務(wù)上的成功率也只有63.71%,而基于小模型訓(xùn)練的T?PO達(dá)到了90.23%,差距顯著。

      Search QA是一個(gè)多輪搜索問(wèn)答任務(wù),包括單跳問(wèn)題(需要一步找到答案的問(wèn)題,如自然問(wèn)題NQ、TriviaQA)和多跳問(wèn)題(需要串聯(lián)多個(gè)事實(shí)推理的問(wèn)題,如HotpotQA、MuSiQue)。在單跳任務(wù)上,T?PO在NQ上得分46.13,在TriviaQA上得分64.08,穩(wěn)居前列。多跳問(wèn)題更能體現(xiàn)T?PO的優(yōu)勢(shì):在MuSiQue這個(gè)公認(rèn)最難的多跳問(wèn)答數(shù)據(jù)集上,T?PO得分16.64,而此前最好的GiGPO只有13.40,提升幅度超過(guò)24%。在七個(gè)數(shù)據(jù)集的平均分上,T?PO達(dá)到54.93,比GiGPO的52.97高出近2個(gè)點(diǎn)。

      從成功軌跡的token消耗分布來(lái)看,T?PO生成的成功軌跡大多集中在較短的token區(qū)間,而對(duì)照組的成功軌跡則更多分布在高token區(qū)間——這意味著T?PO用更少的"思考量"完成了更多的成功任務(wù)。在輪次數(shù)量上,T?PO在WebShop上減少了約25%的交互輪次,在ALFWorld上也減少了約16%,這直接轉(zhuǎn)化為計(jì)算資源的節(jié)省。

      七、 和其他"讓AI少說(shuō)廢話(huà)"方法的橫向比較

      研究團(tuán)隊(duì)還專(zhuān)門(mén)和四種現(xiàn)有的"思維控制"策略做了對(duì)比,這是理解T?PO價(jià)值的重要維度。

      第一種是"冗長(zhǎng)獎(jiǎng)勵(lì)"方法,它通過(guò)在獎(jiǎng)勵(lì)中加入對(duì)回答長(zhǎng)度的懲罰來(lái)鼓勵(lì)A(yù)I說(shuō)短話(huà)——答對(duì)了但說(shuō)得長(zhǎng),少給獎(jiǎng)勵(lì);答錯(cuò)了還說(shuō)得長(zhǎng),額外扣分。這個(gè)方法的邏輯直接,但問(wèn)題在于它對(duì)所有內(nèi)容一視同仁,無(wú)論是真正有用的推理還是無(wú)意義的廢話(huà),都會(huì)因?yàn)殚L(zhǎng)度而受罰,最終任務(wù)成功率只有65.87%。

      第二種是"短鏈路思維冷啟動(dòng)",用更簡(jiǎn)潔的GPT-4o示范數(shù)據(jù)來(lái)初始化AI,讓它從一開(kāi)始就學(xué)會(huì)言簡(jiǎn)意賅。這個(gè)方法對(duì)早期訓(xùn)練穩(wěn)定性確實(shí)有幫助,但它不能在強(qiáng)化學(xué)習(xí)階段動(dòng)態(tài)調(diào)整推理過(guò)程,隨著訓(xùn)練推進(jìn),AI會(huì)逐漸漂移回冗長(zhǎng)模式,成功率達(dá)到71.29%。

      第三種是"硬性思維預(yù)算",直接給推理過(guò)程設(shè)一個(gè)最大token數(shù)上限。這個(gè)方法的問(wèn)題是靜態(tài)的——不管當(dāng)前任務(wù)有多難、當(dāng)前推理有多重要,一律在固定位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理,在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充,成功率79.21%。

      第四種是"無(wú)效輪過(guò)濾",把包含無(wú)效或空白行動(dòng)的軌跡從訓(xùn)練數(shù)據(jù)中移除,防止退化行為污染學(xué)習(xí)。這個(gè)方法確實(shí)有效果,成功率76.20%,但它只能事后過(guò)濾,無(wú)法主動(dòng)干預(yù)生成過(guò)程中的冗余,更無(wú)法處理那些格式合法但內(nèi)容重復(fù)的輪次。

      T?PO的TTI+TDS組合以93.84分/81.64%的成績(jī)大幅領(lǐng)先,核心優(yōu)勢(shì)在于它是在生成過(guò)程中實(shí)時(shí)介入,而不是依賴(lài)事后的獎(jiǎng)勵(lì)塑形或數(shù)據(jù)過(guò)濾,因此能更精準(zhǔn)地識(shí)別和切除真正的無(wú)效探索,同時(shí)保留有價(jià)值的推理內(nèi)容。

      八、 訓(xùn)練穩(wěn)定性:從反復(fù)崩潰到持續(xù)向好

      訓(xùn)練穩(wěn)定性是這項(xiàng)研究的核心關(guān)切之一,值得單獨(dú)拿出來(lái)說(shuō)清楚。

      研究團(tuán)隊(duì)在不同隨機(jī)種子下運(yùn)行了多組實(shí)驗(yàn),用以檢驗(yàn)方法的魯棒性。結(jié)果顯示,現(xiàn)有方法(包括Vanilla GRPO和GiGPO)在某些隨機(jī)種子下表現(xiàn)尚可,但在另一些種子下會(huì)出現(xiàn)成功率先升后急劇下降的"訓(xùn)練崩潰"——這種崩潰的表征是成功率曲線(xiàn)突然塌陷,同時(shí)梯度范數(shù)和KL散度急劇飆升。

      T?PO在三個(gè)不同隨機(jī)種子下均呈現(xiàn)出單調(diào)遞增、持續(xù)向好的成功率曲線(xiàn),沒(méi)有出現(xiàn)崩潰現(xiàn)象。梯度范數(shù)和KL散度也保持在合理范圍內(nèi),說(shuō)明策略更新始終處于可控狀態(tài)。

      從機(jī)制上解釋?zhuān)@種穩(wěn)定性來(lái)自于T?PO對(duì)探索效率的主動(dòng)管理:通過(guò)減少無(wú)效token和無(wú)效輪次,T?PO降低了信用分配信號(hào)的噪聲水平,讓策略更新的梯度方向更加清晰可靠,避免了因噪聲過(guò)大而導(dǎo)致的參數(shù)更新失控。

      說(shuō)到底,T?PO解決的是一個(gè)關(guān)于"度"的問(wèn)題。AI需要足夠深入地思考才能做出好決策,但想得太多反而會(huì)帶來(lái)反效果。這項(xiàng)研究的貢獻(xiàn)在于,它不是簡(jiǎn)單地用一把尺子限制AI說(shuō)話(huà)的長(zhǎng)度,而是真正看清楚AI在每個(gè)時(shí)刻的"內(nèi)心狀態(tài)",在它真正停止有效思考的那一刻才介入,并在整個(gè)多輪任務(wù)中持續(xù)監(jiān)控是否陷入了無(wú)效循環(huán)。

      更有意思的是,這種穩(wěn)定性是從"內(nèi)部"獲得的,不需要額外的獎(jiǎng)勵(lì)模型,不需要人工標(biāo)注的過(guò)程數(shù)據(jù),只依靠AI自己生成內(nèi)容時(shí)產(chǎn)生的概率分布信號(hào)。換句話(huà)說(shuō),AI學(xué)會(huì)了用自己的"內(nèi)心溫度"來(lái)判斷自己是否還在有效工作。這對(duì)于未來(lái)構(gòu)建更可靠、更省資源的AI智能體,提供了一條頗具參考價(jià)值的路徑。

      如果你對(duì)多輪強(qiáng)化學(xué)習(xí)、AI智能體訓(xùn)練或大模型推理優(yōu)化感興趣,這篇論文無(wú)疑值得深讀。可以通過(guò)arXiv編號(hào)2605.02178獲取完整論文,研究代碼也已在GitHub上公開(kāi),倉(cāng)庫(kù)名為WillDreamer/T2PO。

      Q&A

      Q1:T?PO中的"詞元級(jí)思維干預(yù)"是怎么判斷AI什么時(shí)候該停止推理的?

      A:T?PO會(huì)在AI生成每個(gè)詞時(shí)計(jì)算一個(gè)"自校準(zhǔn)不確定性信號(hào)"Mt,這個(gè)信號(hào)融合了概率分布的分散程度(熵)和對(duì)最高概率詞的置信度。系統(tǒng)用滑動(dòng)窗口持續(xù)追蹤相鄰兩步Mt的變化量,如果連續(xù)N步內(nèi)平均變化量低于閾值ε,就說(shuō)明AI的推理已經(jīng)原地打轉(zhuǎn)、不再產(chǎn)生新信息,此時(shí)直接強(qiáng)制插入"結(jié)束思考"標(biāo)記,讓AI進(jìn)入行動(dòng)階段。這個(gè)機(jī)制只在生成了最短前綴之后才啟動(dòng),避免過(guò)早截?cái)唷?/p>

      Q2:T?PO的輪次級(jí)動(dòng)態(tài)重采樣為什么不直接用任務(wù)獎(jiǎng)勵(lì)來(lái)判斷哪輪有沒(méi)有效果?

      A:在多輪交互任務(wù)中,每一輪通常沒(méi)有獨(dú)立的獎(jiǎng)勵(lì)信號(hào),只有整個(gè)任務(wù)結(jié)束才會(huì)得到最終獎(jiǎng)勵(lì)。因此無(wú)法像單輪任務(wù)那樣直接用正確率過(guò)濾輪次。T?PO的解決辦法是把每輪所有詞元的不確定性信號(hào)聚合成"輪次指紋"Φk,通過(guò)比較相鄰兩輪指紋的變化量Γk來(lái)判斷當(dāng)前輪是否帶來(lái)了新的信息結(jié)構(gòu)變化,變化太小就重新生成,不依賴(lài)任何外部獎(jiǎng)勵(lì)標(biāo)注。

      Q3:T?PO和直接設(shè)置一個(gè)固定的最大推理長(zhǎng)度有什么實(shí)質(zhì)區(qū)別?

      A:固定最大長(zhǎng)度是靜態(tài)的,不管任務(wù)難易和推理質(zhì)量,統(tǒng)一在同一個(gè)位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理,在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充。T?PO的截?cái)鄷r(shí)機(jī)是動(dòng)態(tài)的,由AI自身的概率分布變化來(lái)決定,只在信息增益真正枯竭時(shí)才介入,因此能保留關(guān)鍵推理內(nèi)容同時(shí)剔除真正的廢話(huà),實(shí)驗(yàn)中比固定預(yù)算方法的成功率高出約2.4個(gè)百分點(diǎn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      今夏最值錢(qián)自由球員誕生!四隊(duì)瘋搶陳盈駿,頂薪被鎖何去何從?

      今夏最值錢(qián)自由球員誕生!四隊(duì)瘋搶陳盈駿,頂薪被鎖何去何從?

      寶哥精彩賽事
      2026-05-14 00:34:11
      你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

      你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

      夜深?lèi)?ài)雜談
      2026-02-21 21:37:02
      活塞主帥談2-3-哈登救騎士三場(chǎng)&G6不會(huì)讓他輕松進(jìn)攻

      活塞主帥談2-3-哈登救騎士三場(chǎng)&G6不會(huì)讓他輕松進(jìn)攻

      歷史縫隙里的猹
      2026-05-15 04:55:01
      在《水滸傳》中,高俅經(jīng)常被稱(chēng)為高太尉,相當(dāng)于今天的什么官職?

      在《水滸傳》中,高俅經(jīng)常被稱(chēng)為高太尉,相當(dāng)于今天的什么官職?

      掠影后有感
      2026-05-14 11:46:53
      夢(mèng)鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來(lái)?xiàng)詈榛鶝](méi)說(shuō)謊

      夢(mèng)鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來(lái)?xiàng)詈榛鶝](méi)說(shuō)謊

      阿纂看事
      2024-11-05 11:54:58
      何九華官宣當(dāng)爸不到24小時(shí),惡心的一幕發(fā)生,和王鷗關(guān)系真相大白

      何九華官宣當(dāng)爸不到24小時(shí),惡心的一幕發(fā)生,和王鷗關(guān)系真相大白

      一盅情懷
      2026-05-15 10:01:34
      相親要1000萬(wàn)彩禮的“泡面姐姐”露真容,網(wǎng)友很失望勸她戴上面罩

      相親要1000萬(wàn)彩禮的“泡面姐姐”露真容,網(wǎng)友很失望勸她戴上面罩

      漢史趣聞
      2026-05-13 10:21:50
      “十年燒烤無(wú)人問(wèn),一墻書(shū)法天下知!”女孩在父親店寫(xiě)《將進(jìn)酒》

      “十年燒烤無(wú)人問(wèn),一墻書(shū)法天下知!”女孩在父親店寫(xiě)《將進(jìn)酒》

      一絲不茍的法律人
      2026-05-12 21:58:34
      廣東男籃最新消息:北控張口就要徐杰?這離譜報(bào)價(jià)把廣東看懵!張14離隊(duì),焦泊喬表態(tài)

      廣東男籃最新消息:北控張口就要徐杰?這離譜報(bào)價(jià)把廣東看懵!張14離隊(duì),焦泊喬表態(tài)

      夢(mèng)憶之淺
      2026-05-15 00:11:33
      俄軍前線(xiàn)失控,指揮癱瘓、軍頭林立,1917年式危機(jī)陰影重現(xiàn)。

      俄軍前線(xiàn)失控,指揮癱瘓、軍頭林立,1917年式危機(jī)陰影重現(xiàn)。

      高博新視野
      2026-05-13 07:30:17
      延安的特務(wù)全軍覆沒(méi),戴笠百思不解,至死不知是因誤招一小學(xué)教師

      延安的特務(wù)全軍覆沒(méi),戴笠百思不解,至死不知是因誤招一小學(xué)教師

      浩渺青史
      2026-05-15 01:49:29
      馬卡:疑似告別視頻流出,瓜迪奧拉或?qū)㈦x開(kāi)曼城

      馬卡:疑似告別視頻流出,瓜迪奧拉或?qū)㈦x開(kāi)曼城

      懂球帝
      2026-05-14 22:12:12
      西南交通大學(xué)副校長(zhǎng)周仲榮將出任澳門(mén)理工大學(xué)校長(zhǎng)

      西南交通大學(xué)副校長(zhǎng)周仲榮將出任澳門(mén)理工大學(xué)校長(zhǎng)

      澎湃新聞
      2026-05-14 19:54:27
      杰米·福克斯58歲再當(dāng)爸,女友官宣懷孕

      杰米·福克斯58歲再當(dāng)爸,女友官宣懷孕

      娛圈觀察員
      2026-05-13 06:00:27
      50℃的生存考驗(yàn):當(dāng)印度變成“空調(diào)外機(jī)”,這個(gè)國(guó)家還能生存多久

      50℃的生存考驗(yàn):當(dāng)印度變成“空調(diào)外機(jī)”,這個(gè)國(guó)家還能生存多久

      阿訊說(shuō)天下
      2026-05-14 12:06:36
      重慶觀音橋偶遇明星錄綜藝,方媛雖然不高但好漂亮伊能靜兒子好帥

      重慶觀音橋偶遇明星錄綜藝,方媛雖然不高但好漂亮伊能靜兒子好帥

      陳意小可愛(ài)
      2026-05-15 00:07:23
      二戰(zhàn)時(shí)期,唯一一個(gè)沒(méi)有參戰(zhàn)的世界性強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

      二戰(zhàn)時(shí)期,唯一一個(gè)沒(méi)有參戰(zhàn)的世界性強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

      云霄紀(jì)史觀
      2026-05-14 17:55:31
      中美之爭(zhēng)結(jié)束?現(xiàn)實(shí)比想象殘酷:美國(guó)并非輸了,是連牌桌都下不去

      中美之爭(zhēng)結(jié)束?現(xiàn)實(shí)比想象殘酷:美國(guó)并非輸了,是連牌桌都下不去

      夢(mèng)想的現(xiàn)實(shí)
      2026-05-01 10:15:41
      離婚六個(gè)月之內(nèi)禁止再婚

      離婚六個(gè)月之內(nèi)禁止再婚

      新科文
      2026-05-13 15:45:04
      退休金達(dá)到這個(gè)數(shù),生活質(zhì)量比別人高一大截,可碾壓90%同齡人

      退休金達(dá)到這個(gè)數(shù),生活質(zhì)量比別人高一大截,可碾壓90%同齡人

      暖風(fēng)吹過(guò)竹林
      2026-05-14 16:05:12
      2026-05-15 11:11:02
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8357文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋(píng)果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪(fǎng)華舉世矚目 又一次使用“最高級(jí)用語(yǔ)”

      頭條要聞

      媒體:特朗普訪(fǎng)華舉世矚目 又一次使用“最高級(jí)用語(yǔ)”

      體育要聞

      德約科維奇買(mǎi)的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂(lè)要聞

      方媛回應(yīng)住男生單人間:女孩的配得感

      財(cái)經(jīng)要聞

      特朗普的北京時(shí)刻

      汽車(chē)要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      本地
      游戲
      旅游
      手機(jī)
      公開(kāi)課

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      《極限競(jìng)速:地平線(xiàn)6》評(píng)測(cè)9分:英國(guó)人遞上的日本汽車(chē)文化名片

      旅游要聞

      生態(tài)奇觀:云南金平現(xiàn)“蝶瀑”景象

      手機(jī)要聞

      對(duì)標(biāo)大疆Pocket!OPPO、vivo年底齊推云臺(tái)相機(jī)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 麻花传媒在线mv免费观看视频| 亚洲av综合色区无码专区| 国产精品人成视频免费播放| 日本一区二区不卡| 日韩69永久免费视频| 亚洲精品国产电影午夜在线观看| 亚洲热线99精品视频| 永久免费无码成人网站| 麻豆 美女 丝袜 人妻 中文 | 人妻无码一区二区不卡无码av| 成A人片亚洲日本久久| 国产精品拍国产拍拍偷| 粉嫩极品国产在线观看| 精品国产大片中文字幕| 99国产在线| 性男女做视频观看网站| 超碰97人人做人人爱综合| 亚洲高清日韩专区精品| 影音先锋资源| 无码专区视频精品老司机| 成人三级片在线| 四虎亚洲国产成人久久精品| 精品久久久久久无码人妻蜜桃| 亚洲自国产拍揄拍| 无码色偷偷亚洲国内自拍| 亚洲国产欧美人成| 性色av不卡一区二区三区| 999国产精品| 99v久久综合狠狠综合久久| 亚洲狠狠撸| 国产桃色在线成免费视频| 91精品国产91久久久久游泳池 | 中文字幕人妻无码专区APP| 无码国内精品久久人妻| 伊人九九网香蕉精品| 狠狠人妻久久久久久综合老师| 中文字幕亚洲无线码高清| 台湾无码av一区二区三区| 无码人妻av一二区二区三区| 四虎成人精品无码| 国模小黎自慰GOGO人体图片|