<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      復旦提出簡單指標,找出推理蒸餾中真正有教學價值的數據

      0
      分享至



      什么樣的思維鏈,能「教會」學生更好地推理?


      許多人都有這樣的學習體驗:內容過于熟悉,難以帶來新的收獲;內容過于陌生,又往往超出理解能力,難以消化吸收。

      類似的現象同樣出現在大語言模型的推理蒸餾中。來自能力更強的教師模型的思維鏈,可能過于晦澀,學生模型難以掌握其推理模式;而與學生認知相近的教師模型,其推理軌跡又常常缺乏新信息,難以帶來實質提升。

      因此,要獲得理想的蒸餾效果,關鍵在于為不同學生模型選擇恰好合適的數據,在「熟悉」與「陌生」之間找到最佳平衡。然而,現有基于概率的篩選或度量方法(如 Perplexity)難以刻畫這種細粒度的適配關系。

      那么,是否存在一種直觀且易于計算的數據適配度指標,能夠量化這種平衡?

      來自復旦大學和上海人工智能實驗室的研究者提出了一種簡單而有效的度量方法,Rank-Surprisal Ratio (RSR):



      RSR 從學生模型的視角出發,綜合考慮樣本的信息量與對齊程度,旨在找出那些既足夠「新」,又未超出學生認知邊界的推理數據。

      在大規模蒸餾實驗中,RSR 與學生模型后訓練性能的相關性高達 0.86,并且可以直接用于篩選推理軌跡以及選擇教師模型,無需實際訓練即可找到更合適的思維鏈數據。



      • 論文鏈接:https://arxiv.org/pdf/2601.14249
      • 代碼鏈接:https://github.com/UmeanNever/RankSurprisalRatio

      反直覺的現象


      長思維鏈(CoT)的生成被普遍認為是大模型推理能力的核心。相應地,包含長思維鏈的推理軌跡常被視為高質量的監督信號,可以用于有監督微調(SFT)訓練學生模型,或助力強化學習的冷啟動。

      但越來越多的實驗呈現出一個反直覺現象:教師模型越強,學生模型未必學得越好。

      在這篇工作中,作者系統性地構建了 11 個 teacher(教師模型)× 5 個 student(學生模型)的蒸餾實驗,覆蓋從 4B 到 671B 的主流推理模型。結果顯示:

      • teacher 的參數規模、推理準確率與 student 的推理提升相關性很弱;
      • 同一個 teacher 的數據在不同 student 上的訓練效果差異顯著;
      • 跨模型家族的 teacher(如 GPT-OSS → Qwen)往往效果更差;
      • 推理數據是否「適合」當前 student 是關鍵。



      表一:蒸餾實驗結果,在多個數學 benchmark 上評測 student 模型使用 teacher 數據訓練后的性能。

      現有數據篩選方法的問題

      當前主流的數據篩選或評估方法,大多依賴一個信號:student 模型生成該數據的概率(perplexity /log-likelihood/surprisal),認為 student 覺得「自然」的數據就更容易學。



      但問題在于:

      • 太「自然」的推理數據,往往信息增量有限;
      • 真正有價值的推理數據,恰恰是 student 尚未充分掌握的部分。

      這就引出了論文試圖解決的核心矛盾 ——Informative Alignment Challenge:如何在提供新知識的 informativeness 與符合學生當前認知的 alignment 之間取得平衡?

      關鍵洞察

      「絕對陌生 (Absolute unfamiliarity) + 相對熟悉 (Relative familiarity)」的推理數據最有學習價值

      面對看似難以兼顧的「熟悉 - 陌生」的平衡,作者從 token 級別重新審視 student 的預測分布,提出一個直觀、但之前被忽略的視角:

      • Informativeness 關注的是當前 token 在概率層面的絕對陌生度,可由 Surprisal(?log p / 負對數似然)刻畫;
      • Alignment 關注的是當前 token對比其它候選 token 的相對熟悉度,可由 Rank(在詞表預測中的名次)衡量。

      在這一視角下,一個 token 可以同時滿足:

      • 被 student 生成的概率不高(informative)
      • 但在候選詞表中排名靠前(aligned)

      因此,informativeness 與 alignment 并非天然沖突。恰恰是同時滿足這兩點的 token,構成了最適合 student 學習的推理數據。



      圖一:Rank-Surprisal Ratio 的設計動機 —— 合適的推理數據應當兼顧 informativeness 與 alignment

      直觀的指標:Rank-Surprisal Ratio


      基于前文在 token 級別的觀察,以及相關仿真分析與數學推導,論文提出了一個形式上極其簡潔的樣本級指標:



      直覺解釋:

      • 分子(Rank)越小,表示當前樣本越符合 student 的行為模式,對齊程度(alignment)越高;
      • 分母(Surprisal)越大,表示當前樣本提供的信息量越充分,信息性(informativeness)越強;
      • RSR 越小 → 信息量與對齊程度的平衡越好。

      在實現上:

      • 僅需對 student 進行一次前向計算;
      • 不依賴 verifier 或額外測試數據;
      • 融合了 rank clipping 與 surprisal 加權平均機制,在極端情況下具有更好的數值穩定性。

      實驗:與訓練效果的相關性

      作者將 RSR 與多種已有指標進行了對比,包括 teacher 模型及訓練數據的若干統計量、常用的數據質量評估方法、基于概率的指標,以及其他基于 student 模型計算的指標。

      實驗結果在 5 個 student 模型上高度一致:RSR 與 student 模型后訓練性能的 Spearman 相關系數平均達到 0.86,顯著高于其它指標。



      表二:不同指標與模型后訓練推理性能之間的相關性

      在實際場景中的應用

      場景 1:Trajectory Selection (選擇最合適的推理軌跡數據)

      • 在該場景中,針對訓練集中的每一道題目,作者從多個 teacher 模型生成的 33 條候選思維鏈中,依據不同指標選擇一條最合適的推理軌跡,從而構建用于訓練 student 的推理數據集。
      • 實驗結果表明,基于 Rank-Surprisal Ratio 篩選得到的數據,在不同 student 模型上訓練后均取得了最優的推理性能,優于其它方法。



      表三:不同數據篩選方法的后訓練性能

      場景 2:Teacher Selection(選擇最合適的教師模型)

      • 在該場景中,作者僅使用每個 teacher 模型生成的 200 條推理軌跡來估計其與不同 student 的適配程度,從而模擬實際蒸餾前的 teacher 選擇過程。
      • 實驗結果顯示,RSR 能穩定選出接近 oracle(真實最優)的 teacher 模型,整體表現優于其它方法。



      表三:不同 teacher 模型選擇方法的表現

      結語

      這項工作重新審視了推理蒸餾中一個看似簡單卻難以回答的的問題:什么樣的推理軌跡能「教會」student 更好地推理。通過將 token 的 相對熟悉度(rank) 與 絕對信息量(surprisal) 結合,Rank-Surprisal Ratio 給出了一個直觀、易于計算、且在大規模實驗中被驗證有效的答案。

      更重要的是,RSR 并不依賴額外的評估數據或驗證器,而是直接從 student 的視角出發刻畫數據價值。這使它不僅是一個分析工具,也具備作為實際數據工程指標的潛力。

      向前看,這種「informative alignment」的視角或許可以進一步擴展到:

      • 更通用的 reasoning 任務(如 code、tool use);
      • 推理軌跡的重寫與合成,而不僅是選擇;
      • 以及與 On-policy Distillation、RL 結合的動態數據調度。

      當推理模型的瓶頸逐漸從「規模」轉向「數據的高效利用」,理解哪些思維過程真正具有教學價值,可能將成為下一階段 post-training 的關鍵問題。

      作者介紹

      楊宇銘,復旦大學自然語言處理實驗室博士生,導師為張奇教授。本科畢業于復旦大學數學系,碩士畢業于密歇根大學統計學系。博士階段前曾在微軟擔任數據科學家。研究方向為自然語言處理與大語言模型,作為第一作者或共同第一作者在 ACL、EMNLP、NeurIPS 等頂級會議發表多篇論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《GTA6》首發無PC引眾怒!玩家怒批R星與時代脫節!硬盤瑟瑟發抖!游戲容量近200GB!

      《GTA6》首發無PC引眾怒!玩家怒批R星與時代脫節!硬盤瑟瑟發抖!游戲容量近200GB!

      Steam社區
      2026-05-10 11:51:37
      尼克斯129.1進攻效率恐怖,仍不及25年騎士隊

      尼克斯129.1進攻效率恐怖,仍不及25年騎士隊

      章民解說體育
      2026-05-12 18:07:08
      俄羅斯是真眼饞!中國大量東風導彈將要退役,可以出口換外匯嗎?

      俄羅斯是真眼饞!中國大量東風導彈將要退役,可以出口換外匯嗎?

      潮鹿逐夢
      2026-05-06 16:44:26
      字節砍掉30%的AI項目?背后的真假與焦慮

      字節砍掉30%的AI項目?背后的真假與焦慮

      鈦媒體APP
      2026-05-11 18:15:28
      結婚才2年,蕭敬騰就嘗到老妻少夫的殘酷,其實舒淇早就把話說透

      結婚才2年,蕭敬騰就嘗到老妻少夫的殘酷,其實舒淇早就把話說透

      枯蝶
      2026-05-11 09:20:17
      中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

      中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

      細說職場
      2026-05-10 11:14:50
      國乒奪冠夜!王勵勤點名兩大功臣,梁靖崑發文看哭無數人

      國乒奪冠夜!王勵勤點名兩大功臣,梁靖崑發文看哭無數人

      kio魚
      2026-05-12 18:12:28
      “逆襲之王”梁靖崑奪冠后回復妻子打錯字,網友:冠軍手速快拼音不過關

      “逆襲之王”梁靖崑奪冠后回復妻子打錯字,網友:冠軍手速快拼音不過關

      現代快報
      2026-05-11 17:15:03
      2026年4月26日中央紀委重磅發文,物業領域嚴查全面升級

      2026年4月26日中央紀委重磅發文,物業領域嚴查全面升級

      職場資深秘書
      2026-05-11 22:29:43
      韓國千面影帝李秉憲:演技有多頂,人品就有多渣

      韓國千面影帝李秉憲:演技有多頂,人品就有多渣

      上官晚安
      2026-05-05 17:03:06
      特朗普:美伊停火正處于“生命維持”狀態

      特朗普:美伊停火正處于“生命維持”狀態

      界面新聞
      2026-05-12 12:31:34
      國際足聯被曝愿作出“重大讓步”:官員正飛往中國,爭取讓央視購買今年世界杯的電視轉播權,并提出將報價降低50%以上

      國際足聯被曝愿作出“重大讓步”:官員正飛往中國,爭取讓央視購買今年世界杯的電視轉播權,并提出將報價降低50%以上

      大風新聞
      2026-05-11 15:12:02
      樊振東沒想到,國乒倫敦奪冠不到24小時,他“處境”變得如此唏噓

      樊振東沒想到,國乒倫敦奪冠不到24小時,他“處境”變得如此唏噓

      好賢觀史記
      2026-05-12 11:03:43
      家用SUV煥新!2026款本田CRV亮相,軸距2米71.5T9AT

      家用SUV煥新!2026款本田CRV亮相,軸距2米71.5T9AT

      音樂時光的娛樂
      2026-05-11 09:17:46
      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      戶外阿毽
      2026-05-10 19:24:43
      查扣電動車停了,工信部一錘定音:老百姓需要什么就造什么

      查扣電動車停了,工信部一錘定音:老百姓需要什么就造什么

      一口娛樂
      2026-05-12 12:42:56
      伊朗官員:若再次遭襲 伊方或選擇將濃縮鈾豐度提升至90%

      伊朗官員:若再次遭襲 伊方或選擇將濃縮鈾豐度提升至90%

      新京報
      2026-05-12 15:11:26
      神仙同框!楊麗萍教小酒窩孔雀舞,董璇穿黃衣白裙,也格外吸睛!

      神仙同框!楊麗萍教小酒窩孔雀舞,董璇穿黃衣白裙,也格外吸睛!

      明星私服穿搭daily
      2026-05-11 13:59:13
      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      妍妍教育日記
      2026-05-11 18:59:23
      太意外,一聲招呼不打,國際奧委直接官宣上海辦賽,背后全是算計

      太意外,一聲招呼不打,國際奧委直接官宣上海辦賽,背后全是算計

      有范又有料
      2026-05-11 11:29:37
      2026-05-12 18:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      教育要聞

      【預告】5月15日 | 南方教研大講堂第185場——AI賦能創意實踐 提升學生物化能力

      頭條要聞

      為見女兒最后一面老人第一次坐高鐵 買不到票求助特警

      頭條要聞

      為見女兒最后一面老人第一次坐高鐵 買不到票求助特警

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      健康
      藝術
      家居
      教育
      軍事航空

      干細胞能讓人“返老還童”嗎

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      家居要聞

      極簡主義下的居住場域與空間

      教育要聞

      10個冷門高薪專業低分逆襲

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 羞羞影院成人午夜爽爽在线| 中文字幕一区二区三区乱码不卡 | 99re热视频这里只精品| 国产日产亚洲欧美综合另类| 国内黄色精品| 国产二级看片| 日韩99在线a| 国产午夜鲁丝片AV无码免费| 一本色道久久88综合日韩精品| 福利一区福利二区微拍刺激| 国产第一页屁屁影院| 久久人人蜜桃97精品蜜臀| 亚洲va久久久噜噜噜久久男同| 国产无遮挡又爽又黄大胸免费| 成人性生交大片免费看| 亚洲AV成人无码一二三在线观看 | 无码少妇一区二区三区免费| 丁香亚洲综合五月天婷婷| 国产精品久久久| 国内精品久久人妻无码大片高| 青青操视频免费观看| 久久国产亚洲AV无码专区| 囗一交一一性一交| 国产精品久久久久9999高清| 国产清品夜色一区二区三区不卡| 人妻人人看人妻人人添| 337p大胆啪啪私拍人体| 四虎永久www成人影院| 亚洲大尺度无码无码专线一区| 午夜激情小视频一区二区| 亚洲欧美在线观看| 四虎国产精品一区二区| 国产第四页| 天天躁日日躁很很躁2022| 777午夜福利理论电影网| 国产成人刺激视频在线观看| 国产成人综合95精品视频| 精品推荐国产精品店| 中文字幕一区二区三区乱码| 日本高清中文字幕免费一区二区| 毛茸茸性xxxx毛茸茸毛茸茸|