<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      兩個(gè)LLM互相對線,推理起飛:康奈爾團(tuán)隊(duì)發(fā)布大模型版類GAN訓(xùn)練法

      0
      分享至



      大型語言模型(LLMs)雖然通過可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)取得了顯著進(jìn)展,但仍然在很大程度上依賴外部監(jiān)督(例如人工標(biāo)注的數(shù)據(jù))。自博弈(self-play)提供了一種有前景的替代方案,使模型能夠通過與自身反復(fù)對抗來學(xué)習(xí),從而減少對外部監(jiān)督的依賴。GAN 則提供了另一種更具吸引力的訓(xùn)練范式:通過對抗式地訓(xùn)練兩個(gè)模型,其中一個(gè)模型專注于生成具有挑戰(zhàn)性的任務(wù)或?qū)箻颖?,另一個(gè)模型則專注于解決這些任務(wù)。

      于是問題來了:LLM 是否也可以像 GAN 一樣進(jìn)行訓(xùn)練?我們的希望是,通過賦予每個(gè)模型不同的專門化角色,可以促進(jìn)持續(xù)的競爭與共同進(jìn)化,從而讓它們能夠解決單一模型可能從根本上無法勝任的任務(wù)。

      為解決這一難題,來自康奈爾大學(xué)的 NLP 團(tuán)隊(duì)提出了PasoDoble,一個(gè)面向大語言模型的全新類 GAN 訓(xùn)練框架。PasoDoble 通過對抗式地訓(xùn)練兩個(gè)幾乎相同的模型:Proposer 用于生成帶有標(biāo)準(zhǔn)答案的高難度問題,Solver 則嘗試解決這些問題。我們進(jìn)一步利用高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語料,并引入離線訓(xùn)練范式,以緩解潛在的訓(xùn)練不穩(wěn)定性。值得注意的是,PasoDoble 在整個(gè)訓(xùn)練過程中不依賴任何監(jiān)督信號



      • 論文題目:Better LLM Reasoning via Dual-play
      • 論文鏈接:https://arxiv.org/pdf/2511.10395
      • 項(xiàng)目主頁:https://hcy123902.github.io/PasoDoble/
      • 作者介紹:共同一作張正鑫,黃誠瑜為康奈爾大學(xué)計(jì)算機(jī)系博士,李?yuàn)S翀為主要貢獻(xiàn)者之一,Claire Cardie 為通訊作者以及導(dǎo)師。



      圖為使用 Qwen3-1.7B 在 MATH-500 上評估的 Solver 在不同訓(xùn)練步驟中的訓(xùn)練動態(tài)。Solver 的整體準(zhǔn)確率在無任何監(jiān)督的情況下從 45% 提升至 67%。它在第 20 步之前就超過了基線模型,并在第 360 步達(dá)到最高的 67%。重要的是,PasoDoble 能夠在數(shù)百個(gè)更新步驟中保持持續(xù)提升,展現(xiàn)出遠(yuǎn)強(qiáng)于相關(guān)工作 R-Zero 的擴(kuò)展能力。



      我們?yōu)槊總€(gè)問題采樣六個(gè)回答,并報(bào)告 pass@1 的準(zhǔn)確率?;€模型按照 Qwen 技術(shù)報(bào)告中的設(shè)置,使用 4-shot 提示進(jìn)行評估;其他模型則使用 0-shot 提示進(jìn)行評估。

      我們發(fā)現(xiàn),在完全無監(jiān)督的情況下,PasoDoble 使 Qwen3-1.7B-Base 的數(shù)學(xué)任務(wù)平均性能提升約13 個(gè)點(diǎn),使 Qwen3-4B-Base 提升約16 個(gè)點(diǎn)。

      PasoDoble 方法概覽

      PasoDoble 由四個(gè)組件構(gòu)成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于離線訓(xùn)練的題目緩沖區(qū)(Question Buffer)。Proposer 和 Solver 均從同一個(gè)預(yù)訓(xùn)練模型初始化,隨后會進(jìn)行初始的冷啟動訓(xùn)練。

      在在線訓(xùn)練中,每次迭代都會從知識庫中采樣一個(gè)知識片段(1),用于提示 Proposer 生成一批問答(QA)對(2)。隨后,Solver 會針對每個(gè)問題生成多個(gè)解答嘗試(3–4)。Solver 根據(jù)其答案是否與 Proposer 的標(biāo)準(zhǔn)答案一致來獲得正確性獎(jiǎng)勵(lì)(5)。為評估問題的難度,我們計(jì)算 Solver 在該問題上的準(zhǔn)確率(6),并將 Proposer 的難度獎(jiǎng)勵(lì)定義為該準(zhǔn)確率的反比(7);同時(shí),還會加入一個(gè)多樣性獎(jiǎng)勵(lì)以鼓勵(lì)生成新穎的問題(8)。這些獎(jiǎng)勵(lì)被組合得到 Proposer 的最終獎(jiǎng)勵(lì)(9)。只有那些具有非平凡難度、被判定為有效的問題才會被保留下來用于 Solver 的訓(xùn)練(10)。當(dāng)至少存在一個(gè)有效問題時(shí),兩個(gè)模型都會同步更新(11),從而形成完整的在線訓(xùn)練循環(huán)。

      在離線訓(xùn)練中,Proposer 會在 Solver 凍結(jié)的情況下首先更新若干步(11),并將生成的有效問題存入 Question Buffer(12)。隨后,將 Proposer 凍結(jié),Solver 則利用 Question Buffer 中的問題進(jìn)行更新(13),從而構(gòu)建其訓(xùn)練數(shù)據(jù)集。

      Proposer Reward 是如何設(shè)計(jì)呢?

      簡而言之,Proposer 會因?yàn)樯衫щy(即 Solver 準(zhǔn)確率低)且 多樣(與近期問題不相似)的問題而獲得獎(jiǎng)勵(lì),但前提是這些問題是有效且格式良好的。

      Proposer 的任務(wù)是生成既具有挑戰(zhàn)性又多樣化的數(shù)學(xué)問題。為引導(dǎo)這種行為,我們設(shè)計(jì)了一個(gè)由難度 reward多樣性 reward兩部分組成的 reward 機(jī)制。

      1. 難度 Reward

      我們希望 Proposer 能生成有挑戰(zhàn)性的問題 —— 即 Solver 不能輕易答對的問題。我們用 Solver 的通過率來衡量難度:



      通過率 p_i 越低,問題越難,獎(jiǎng)勵(lì)就越高。具體地,難度獎(jiǎng)勵(lì)為:



      即使一個(gè)問題非常簡單(例如 p_i = 1.0),獎(jiǎng)勵(lì)仍然為 0.1,以確保 Proposer 始終傾向于生成有效的問題,而不是生成錯(cuò)誤或無意義的問題。

      2. 多樣性 Reward

      我們還希望避免退化現(xiàn)象,例如 Proposer 反復(fù)生成同一種類型的問題。為此,我們將新生成的問題 q_i 與歷史緩沖區(qū) H 中的最近問題進(jìn)行比較,采用 Jaccard 相似度:



      如果兩個(gè)問題過于相似,我們將其視為重復(fù):



      因此,多樣性獎(jiǎng)勵(lì)定義為:



      簡而言之:問題越獨(dú)特,獎(jiǎng)勵(lì)越高。

      3. Proposer 最終獎(jiǎng)勵(lì)

      我們只有在問題既有效又具有多樣性的情況下才會對 Proposer 進(jìn)行獎(jiǎng)勵(lì):

      • 有效性(Validity):通過率不能過低:



      • 多樣性(Diversity):不能過于重復(fù):



      最終獎(jiǎng)勵(lì)為:



      Solver Reward 是如何設(shè)計(jì)呢?

      Solver 的訓(xùn)練僅依賴純正確性獎(jiǎng)勵(lì)。



      其中指標(biāo)函數(shù)定義為:



      實(shí)驗(yàn)設(shè)置

      我們在多種模型規(guī)模上進(jìn)行實(shí)驗(yàn),包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,將它們分別用作 Proposer 和 Solver,然后執(zhí)行冷啟動訓(xùn)練。在冷啟動之后,我們使用 GRPO 同時(shí)訓(xùn)練 Proposer 和 Solver,并在在線與離線兩種設(shè)置下進(jìn)行實(shí)驗(yàn)。更多超參數(shù)設(shè)置參見論文附錄 B。我們使用 MegaMath-Pro-Max 預(yù)訓(xùn)練數(shù)據(jù)集作為知識庫 K。

      實(shí)驗(yàn)結(jié)果

      主流數(shù)學(xué) benchmark 的結(jié)果

      我們在競賽級數(shù)學(xué)基準(zhǔn)上評估了我們的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳結(jié)果,下劃線表示第二優(yōu)。

      PasoDoble 能顯著提升模型在數(shù)學(xué)基準(zhǔn)上的表現(xiàn),尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升隨著模型規(guī)模的增大而持續(xù)增強(qiáng)。



      Qwen2.5-0.5B-Base 模型的實(shí)驗(yàn)結(jié)果。



      Qwen3-0.6B-Base 模型的實(shí)驗(yàn)結(jié)果。



      Qwen2.5-1.5B-Base 模型的實(shí)驗(yàn)結(jié)果。



      Qwen3-1.7B-Base 模型的實(shí)驗(yàn)結(jié)果。



      Qwen2.5-3B-Base 模型的實(shí)驗(yàn)結(jié)果。



      Qwen3-4B-Base 模型的實(shí)驗(yàn)結(jié)果。

      Proposer 與隨機(jī)獎(jiǎng)勵(lì):Solver 到底學(xué)到了什么?

      先前的研究表明,即使使用隨機(jī)獎(jiǎng)勵(lì)也可能帶來非平凡的提升。因此,我們在 Qwen3-1.7B 模型上采用在線訓(xùn)練范式進(jìn)行了相關(guān)實(shí)驗(yàn)。



      隨機(jī)獎(jiǎng)勵(lì)的實(shí)驗(yàn)結(jié)果。



      如上表所示,使用完全隨機(jī)獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練會使 Solver 在所有數(shù)學(xué)基準(zhǔn)上的平均準(zhǔn)確率幾乎跌至零。即便我們強(qiáng)制 Solver 以正確格式作答(部分隨機(jī)獎(jiǎng)勵(lì)),其準(zhǔn)確率仍然大幅下降。與我們原始設(shè)置形成的鮮明對比清楚地表明:Solver 在訓(xùn)練過程中確實(shí)從 Proposer 的答案中受益匪淺

      Proposer 生成的問題是由記憶驅(qū)動的,還是由推理驅(qū)動的?



      Qwen3-1.7B-Base 在不同提示前綴比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 問題 )對 Proposer 在第 200 個(gè)檢查點(diǎn)生成的問題進(jìn)行評估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有評估均使用貪心解碼,并且不使用聊天模板。

      我們通過上表進(jìn)行了分析。即使提示問題前綴重疊達(dá)到 80%,EM 也僅約為 12%(使用知識庫)和 31%(不使用知識庫),這表明絕大多數(shù)生成的問題來源于推理而非記憶。

      總結(jié)

      我們的研究表明,大語言模型可以通過類似 GAN 的雙模型對抗式訓(xùn)練來提升數(shù)學(xué)推理能力,并在多個(gè)數(shù)學(xué)基準(zhǔn)上取得可量化的性能提升。該方法還通過利用預(yù)訓(xùn)練知識增強(qiáng)后訓(xùn)練效果,在預(yù)訓(xùn)練與后訓(xùn)練之間建立了一座橋梁。

      盡管如此,我們的方法也存在局限性,例如在 GPQA 等領(lǐng)域外任務(wù)中并未帶來性能提升。未來的研究將探索將該框架拓展到其他領(lǐng)域,如代碼與事實(shí)問答,并進(jìn)一步研究更廣泛的多模型訓(xùn)練范式,包括協(xié)作式、競爭式以及角色專門化等設(shè)置。這些方向可能對于解決遠(yuǎn)比單一模型能可靠處理的任務(wù)更加復(fù)雜的問題至關(guān)重要。

      參考文獻(xiàn):

      [1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

      [2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

      [3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

      [4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

      [5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

      [6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

      [7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

      75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

      娛說瑜悅
      2026-04-04 15:38:01
      入朝前夕,毛主席聽取林帥建議:換掉13兵團(tuán)主將!兩年后才知高明

      入朝前夕,毛主席聽取林帥建議:換掉13兵團(tuán)主將!兩年后才知高明

      搜史君
      2026-05-08 13:00:16
      皇馬已啟動“穆里尼奧行動”,本菲卡挽留穆帥,英超多隊(duì)有意穆帥

      皇馬已啟動“穆里尼奧行動”,本菲卡挽留穆帥,英超多隊(duì)有意穆帥

      福醬的小時(shí)光
      2026-05-09 05:55:25
      AI驅(qū)動算力及存儲業(yè)績高增 | 投研報(bào)告

      AI驅(qū)動算力及存儲業(yè)績高增 | 投研報(bào)告

      中國能源網(wǎng)
      2026-05-09 10:09:04
      沙特翻臉!突然對美軍關(guān)閉領(lǐng)空,特朗普連忙打電話化解,但未奏效;特朗普曾點(diǎn)名表揚(yáng):沙特做得很好,阿聯(lián)酋也很好

      沙特翻臉!突然對美軍關(guān)閉領(lǐng)空,特朗普連忙打電話化解,但未奏效;特朗普曾點(diǎn)名表揚(yáng):沙特做得很好,阿聯(lián)酋也很好

      大風(fēng)新聞
      2026-05-08 15:36:05
      曝蘑菇頭閏土退出陳翔六點(diǎn)半后續(xù)!知名導(dǎo)演透露細(xì)節(jié),已洽談合作

      曝蘑菇頭閏土退出陳翔六點(diǎn)半后續(xù)!知名導(dǎo)演透露細(xì)節(jié),已洽談合作

      裕豐娛間說
      2026-05-07 22:05:05
      女老板介紹她妹妹給我,我回“不如娶你”,第二天她叫我進(jìn)辦公室

      女老板介紹她妹妹給我,我回“不如娶你”,第二天她叫我進(jìn)辦公室

      那年秋天
      2026-05-08 21:30:07
      朝鮮憲法刪除 “統(tǒng)一”內(nèi)容,對我國利弊難料。

      朝鮮憲法刪除 “統(tǒng)一”內(nèi)容,對我國利弊難料。

      世間閑事
      2026-05-09 09:42:22
      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      江山揮筆
      2026-03-23 15:40:31
      國乒美女錢天一:26歲退役,不選編制選安置費(fèi),嫁世界冠軍很幸福

      國乒美女錢天一:26歲退役,不選編制選安置費(fèi),嫁世界冠軍很幸福

      阿紿聊社會
      2026-05-08 20:10:46
      氣溫狂飆下周連續(xù)30℃+!夏天要來了?

      氣溫狂飆下周連續(xù)30℃+!夏天要來了?

      上觀新聞
      2026-05-09 01:44:19
      黃子佼獲緩刑4年,無需入獄服刑,他偷笑著走出法庭

      黃子佼獲緩刑4年,無需入獄服刑,他偷笑著走出法庭

      素素娛樂
      2026-05-08 09:01:53
      觀察:美加墨世界杯媒體版權(quán)博弈,中國、印度聯(lián)手說不,央視勝利在望?

      觀察:美加墨世界杯媒體版權(quán)博弈,中國、印度聯(lián)手說不,央視勝利在望?

      上觀新聞
      2026-05-08 04:24:29
      央視三胎宣傳片惹爭議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      央視三胎宣傳片惹爭議,脫離現(xiàn)實(shí)強(qiáng)行把孕婦塑造成超人式幸福?

      今朝牛馬
      2026-05-07 20:36:33
      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

      新浪財(cái)經(jīng)
      2026-05-08 15:09:54
      外交部:中洪合作不針對第三方 也不應(yīng)受第三方干擾

      外交部:中洪合作不針對第三方 也不應(yīng)受第三方干擾

      環(huán)球網(wǎng)資訊
      2026-05-08 16:11:06
      林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實(shí)不騙人

      林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實(shí)不騙人

      鄉(xiāng)野小珥
      2026-05-09 06:05:00
      王曼昱輕松擊敗申裕斌,為何孫穎莎贏金娜英艱難?馬琳貢獻(xiàn)表情包

      王曼昱輕松擊敗申裕斌,為何孫穎莎贏金娜英艱難?馬琳貢獻(xiàn)表情包

      體育大學(xué)僧
      2026-05-08 09:39:34
      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      老婆出軌后,對方的妻子上門找到我:你媳婦跟我老公好上了

      千秋文化
      2026-05-04 18:38:07
      國內(nèi)油價(jià)今年第七漲,重返9元時(shí)代,中東局勢令國際油價(jià)居高不下

      國內(nèi)油價(jià)今年第七漲,重返9元時(shí)代,中東局勢令國際油價(jià)居高不下

      上觀新聞
      2026-05-08 17:34:18
      2026-05-09 10:44:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12951文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      美國政府強(qiáng)力下場 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      "4只皮皮蝦1035元"當(dāng)事人注銷賬號 隔壁海鮮店發(fā)聲

      頭條要聞

      "4只皮皮蝦1035元"當(dāng)事人注銷賬號 隔壁海鮮店發(fā)聲

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財(cái)經(jīng)要聞

      白宮:特朗普計(jì)劃5月14日至15日訪問中國

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時(shí)權(quán)益價(jià)9.48萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      本地
      時(shí)尚
      公開課

      藝術(shù)要聞

      鄭麗文訪美惹爭議,宋楚瑜驚人一問震驚眾人!

      5月底或6月?爆料人回應(yīng)GTA6網(wǎng)傳預(yù)告日期:竟胡扯

      本地新聞

      用蘇繡的方式,打開江西婺源

      盧昱曉真的要被審判到這種程度嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人综合人人爽一区二区| 久久综合干| 精品人妻一区二区三区四区五区| 国精品午夜福利视频| 欧美黑人又粗又大xxxx| 韩国美女福利视频一区二区| 亚洲AV第二区国产精品| 國产一二三内射在线看片| 69福利| 亚洲无码中文字幕日韩无码| 成人国产精品无码网站| 日韩精品亚洲专在线电影| 婷婷人人爽人人爽人人片| 精品自拍网| 人妻无码人妻| 国产毛片A啊久久久久| 97se亚洲综合不卡| 久久久99精品成人片| 亚洲精品国产第一区二区| 亚洲精品无码在线观看| 色欲AV无码一区二区人妻| 日韩无码人妻一区| 国产精品xxxx| 国产精品九九热| 白嫩情侣偷拍呻吟刺激| 中国女人大白屁股ass| 亚洲热线99精品视频| av边做边流奶水无码免费| 激情五月开心婷婷深爱| 日韩电影在线观看视频| 国产综合色在线精品| 国产人免费人成免费视频| 精品无码一区二区三区电影 | 久久久中日ab精品综合| 青青草无码免费一二三区| 日韩乱码av| 91福利在线看| 亚洲av影院一区二区三区四区| 久久久av波多野一区二区 | 国产极品粉嫩福利姬萌白酱| 久久亚洲欧美日本精品|