<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      LLM 僅靠自身就能增強推理?SePT 給出簡潔在線自訓練范式

      0
      分享至



      本文第一作者李夢琦為香港中文大學(深圳)計算機科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作,并在香港中文大學(深圳)孫若愚老師與李肖老師的共同指導下完成。

      在推理后訓練里,多數方法仍依賴獎勵模型、驗證器或額外教師信號。如果不依賴這些外部信號,只使用模型自身生成的答案進行自訓練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出肯定答案,簡潔的自訓練方法,可在數學推理任務準確率直升10個點!



      • 論文標題:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
      • 論文:https://arxiv.org/pdf/2510.18814
      • 代碼:https://github.com/ElementQi/SePT



      SePT的在線自訓練循環示意:樣本以采樣溫度 τ_s 生成,訓練階段采用標準 SFT;下一輪訓練數據由更新后的模型生成。

      如流程圖所示,SePT 的核心極其簡潔:當前模型先生成答案,再用這些答案做標準 SFT,隨后由更新后的模型重新生成下一輪訓練數據。下面先看這種在線循環自訓練到底帶來了多少提升。

      數學推理上的結果:SePT vs Baseline

      主結果如圖所示。這里的 baseline 并非默認采樣設置下直接評測的基座模型,而是未做后訓練、但在推理階段經過 temperature sweep 并取最佳結果的強基線。經過 SePT 自訓練后, 在 6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。



      在 Qwen2.5-Math-7B 上,6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項指標上均明顯高于上述 baseline。

      數學推理上的結果:SePT vs RLVR

      如果進一步與 RLVR 方法( GRPO) 比較,可以看到:自訓練方法SePT 已經能夠取得與 GRPO 較為接近的結果,尤其是在OTM數據集上。

      結合表中的結果,在 Qwen2.5-Math-7B 上,使用 OTM 時,SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設置下,SePT 的 Pass@1 還略高于 GRPO(40.8 vs. 39.5)。

      這些結果說明,在本文的比較設置下,SePT 對訓練題集選擇表現出更小的波動,而 GRPO 在 DSR 上的增益更明顯。



      OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化,陰影標出 DSR 至少高出 OTM 2.0 分的情形。

      SePT 算法具體流程

      SePT 有著極其簡潔的自訓練框架設計,可以概括為以下三個步驟:



      這一設計的關鍵可概括為:溫度解耦、標準SFT訓練,最新模型自生成數據。







      SePT 中的在線自生成數據

      本文進一步通過消融實驗驗證了這一設計的重要性:如果將“由最新模型逐輪生成下一輪訓練數據”改為固定數據訓練,性能會明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而在線版本的 SePT 可達到 55.0。



      SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號中的數值表示相對 baseline 的變化。

      SePT 中的溫度解耦



      為什么這件事重要?本文的定理一給出了一個直觀的理論論證





      這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四項指標可以提升到 39.5/57.7/67.9/55.0。

      也就是說,SePT 里“低溫生成 + 標準 SFT”對于數學推理的提升并不是一個經驗 trick,而是理論與實驗都支持的重要設計。



      Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差(Method?Baseline)。





      Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結果。

      自訓練是否會損害模型通用能力?

      模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題,測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本是幾乎不掉:基礎模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本不變;GRPO 也呈現了類似模式。這表明SePT自訓練方法不會明顯損害模型的通用能力。



      Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。

      代碼簡單可用



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      四川16歲女孩懸崖秋千墜亡事件,最致命的真相被所有人忽略了!

      四川16歲女孩懸崖秋千墜亡事件,最致命的真相被所有人忽略了!

      脆皮先生
      2026-05-07 19:41:52
      遠超106票!菲律賓這波彈劾穩了,莎拉再不出來解釋就來不及了

      遠超106票!菲律賓這波彈劾穩了,莎拉再不出來解釋就來不及了

      潮鹿逐夢
      2026-05-07 19:18:45
      3-0!3-1!世乒賽4強浮出水面,中國隊不懼對手 日本命懸一線!

      3-0!3-1!世乒賽4強浮出水面,中國隊不懼對手 日本命懸一線!

      曹說體育
      2026-05-07 16:49:02
      老齡化嚴重:我國最“老”的省是誰

      老齡化嚴重:我國最“老”的省是誰

      譚老師地理大課堂
      2026-05-08 00:04:08
      電影里自盡,為什么歐美人喜歡吞槍飲彈,而我們喜歡槍打太陽穴?

      電影里自盡,為什么歐美人喜歡吞槍飲彈,而我們喜歡槍打太陽穴?

      小蘭聊歷史
      2026-04-30 10:07:24
      王心凌演出被鐳射激光燙到腿,現場痛到尖叫,主辦方致歉!醫生:突發燙傷建議第一時間進行冷敷或冷水沖洗

      王心凌演出被鐳射激光燙到腿,現場痛到尖叫,主辦方致歉!醫生:突發燙傷建議第一時間進行冷敷或冷水沖洗

      魯中晨報
      2026-05-06 15:38:22
      表姐當年在玉米地里做了傻事,十五年后,表姐的決定使人拍手稱快

      表姐當年在玉米地里做了傻事,十五年后,表姐的決定使人拍手稱快

      人間百態大全
      2026-05-08 06:50:03
      吳宜澤5小時開2場見面會!合影無笑容 網友:沒簽名 接觸就被趕走

      吳宜澤5小時開2場見面會!合影無笑容 網友:沒簽名 接觸就被趕走

      念洲
      2026-05-08 07:30:24
      中國日報再獲世界新聞設計大獎!

      中國日報再獲世界新聞設計大獎!

      中國日報網
      2026-05-07 21:21:09
      每隊僅分得1.72萬張門票,阿森納球迷組織對歐冠決賽門票分配不滿

      每隊僅分得1.72萬張門票,阿森納球迷組織對歐冠決賽門票分配不滿

      懂球帝
      2026-05-08 13:42:24
      “臺獨”金主飯碗被砸,賴清德當局揚言反制,威脅嚴審江西赴臺交流

      “臺獨”金主飯碗被砸,賴清德當局揚言反制,威脅嚴審江西赴臺交流

      愛下廚的阿釃
      2026-05-08 13:46:47
      四川省都江堰水利發展中心黨委書記、主任朱澤華被查

      四川省都江堰水利發展中心黨委書記、主任朱澤華被查

      上觀新聞
      2026-05-07 21:24:33
      卡魯索:詹姆斯仍能成為場上最佳,大家總在談他的年齡

      卡魯索:詹姆斯仍能成為場上最佳,大家總在談他的年齡

      林子說事
      2026-05-08 08:11:37
      再戰前法網冠軍!鄭欽文羅馬站第3輪對手確定,交戰記錄3-0領先

      再戰前法網冠軍!鄭欽文羅馬站第3輪對手確定,交戰記錄3-0領先

      全景體育V
      2026-05-08 06:04:26
      CCTV5直播!國乒男隊VS韓國,王楚欽連下2分,復仇韓國晉級4強

      CCTV5直播!國乒男隊VS韓國,王楚欽連下2分,復仇韓國晉級4強

      體育就你秀
      2026-05-08 10:54:39
      廣汽本田4月銷量僅5100輛,同比下滑超72%,6月關閉黃埔工廠

      廣汽本田4月銷量僅5100輛,同比下滑超72%,6月關閉黃埔工廠

      界面新聞
      2026-05-08 09:44:14
      4只1035元天價皮皮蝦事件反轉?官方回復:未超調控價,游客:沒收到退款

      4只1035元天價皮皮蝦事件反轉?官方回復:未超調控價,游客:沒收到退款

      上觀新聞
      2026-05-07 20:24:15
      河南一景區海報文案欠妥引人不適,景區致歉:系追憶不同年代場景長廊,已下架整改更換

      河南一景區海報文案欠妥引人不適,景區致歉:系追憶不同年代場景長廊,已下架整改更換

      瀟湘晨報
      2026-05-07 18:55:16
      凱恩單賽季55球追平萊萬,單賽季進球數位列拜仁隊史并列第二

      凱恩單賽季55球追平萊萬,單賽季進球數位列拜仁隊史并列第二

      懂球帝
      2026-05-07 22:03:05
      33億美元分手費后,默多克次子買下父親47年前賣掉的雜志

      33億美元分手費后,默多克次子買下父親47年前賣掉的雜志

      賽博蘭博
      2026-05-07 11:47:41
      2026-05-08 15:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12944文章數 142646關注度
      往期回顧 全部

      科技要聞

      階躍星辰將完成25億美元融資 加速赴港IPO

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      教育
      本地
      數碼
      旅游
      手機

      教育要聞

      專科→本科→第1名跨考哈爾濱師范大學,他在文華學院成功逆襲!

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      華為曼谷全球發布會推出6款創新產品 含首款Pro Max平板

      旅游要聞

      戶外玩水切莫大意 這些安全細節一定要牢記

      手機要聞

      蘋果在英遭遇410億美元iCloud集體訴訟 約4000萬用戶有望獲賠95美元

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产精品成人网站| 曰本极品少妇videossexhd| 国产精品自拍中文字幕| 加勒比东京热无码一区| 顶级高跟鞋熟妇HD| 日韩av裸体在线播放| 扒开未发育的小泬视频| 国产 字幕 制服 中文 在线| 亚洲人成电影在线天堂色| 日本乱码在线| 欧美野外疯狂做受xxxx高潮 | 亚洲欧美日韩中文二区| 久久久亚洲欧洲日产国码农村| 国模吧无码一区二区三区| 四虎永久免费精品视频| 又粗又大网站| 中文毛片无遮挡高潮| 亚洲网综合| 秋霞午夜成人鲁丝片午夜精品| 一本无码av中文出轨人妻| A片网| 人妻丝袜av中文系列先锋影音| 欧美18精品久久久无码午夜福利 | 伊人久久无码中文字幕| 亚洲一区二区三区高清视频| 国产欧美日韩综合一区二区三区| 午夜福利大片| 免费无码高潮流白浆视频| 中文字幕一二三区波多野结衣 | 国产成人免费视频在线网站2| 97人妻免费公开视频| 国产成人精品三级在线影中文| 啪啪啪网站| 精品国产成人a区在线观看| 国产蜜臀精品一区二区三区| 99在线精品国自产拍不卡| 久久久久久国产精品无码下载 | 亚洲欧美综合成人五月天网站| 亚洲国产福利成人一区二区| 国产精品福利午夜一级毛片| 思思久久96热在精品不卡|