<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      訓練數(shù)據(jù)枯竭怎么辦?首篇「數(shù)據(jù)價值密度」綜述理清思路

      0
      分享至



      本文由來自上海交通大學和上海人工智能實驗室的多位研究者共同完成,受到上海市“通用人工智能大模型”基礎研究專項支持。共同第一作者為孫亦劉、陸彥超與曹家熙,共同通訊作者為來自上海交通大學自動化與感知學院的宮辰教授與劉偉副教授。團隊長期致力于機器學習及大模型方面的研究。

      當訓練數(shù)據(jù)枯竭、訓練成本飆升,大語言模型(LLM)訓練之路該何去何從?

      作為提升 LLM 性能的主流核心范式,持續(xù)擴充訓練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴峻挑戰(zhàn)(如圖 1 所示)。研究表明,目前互聯(lián)網(wǎng)上可獲取的高質量數(shù)據(jù)年增長率不足 10 %,難以滿足 LLM 訓練數(shù)據(jù)大規(guī)模增加的需求。同時,該范式引導的 LLM 訓練動輒需要數(shù)千萬 GPU 小時的算力開銷, 產(chǎn)生了巨額資源消耗與碳排放,讓堆數(shù)據(jù)策略難以為繼。



      圖 1:左:大模型數(shù)據(jù)擴展面臨的三大挑戰(zhàn)。右:互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓練數(shù)據(jù)量的增長趨勢對比。

      因而,如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓練收益,已經(jīng)成為 LLM 訓練的關鍵問題!

      目前,研究者在該領域已展開了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但該領域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理,導致研究目標界定模糊,研究方法呈現(xiàn)零散化、碎片化的格局,尚未形成完備、統(tǒng)一的理論與方法體系。

      在這一背景下,來自上海交通大學與上海人工智能實驗室的研究團隊發(fā)布了該領域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價值密度”(Data Value Density,DVD)這一核心概念并給出數(shù)學定義。基于該定義,該綜述建立了系統(tǒng)的分類框架,梳理了該領域的現(xiàn)有工作,為學術界和工業(yè)界繪制了一份詳盡的指南。



      • 論文標題:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
      • 論文鏈接:https://ssrn.com/abstract=6618802

      核心概念與主要貢獻

      本篇 Survey 從底層邏輯出發(fā),首次提出了 “數(shù)據(jù)價值密度”(Data Value Density,DVD)這一核心概念,并給出了嚴謹?shù)臄?shù)學定義:



      其中,D 表示 LLM 訓練所使用的數(shù)據(jù)集,C 表示評估數(shù)據(jù)價值所必須的上下文信息,例如當前 LLM 能力分布、目標任務特征等。

      V (D∣C) 衡量數(shù)據(jù)集 D 在訓練上下文 C 下對模型性能提升的總貢獻價值,而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領域研究的目標,就是構建一個新數(shù)據(jù)集,使其價值密度大于原數(shù)據(jù)集(Δf>0)。

      基于這一核心概念,作者系統(tǒng)性地梳理了現(xiàn)有文獻,作出了四大核心貢獻:

      • 貢獻一:首次提出 “DVD” 這一概念,為大模型訓練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標,即增強訓練數(shù)據(jù)的價值密度;
      • 貢獻二:基于 DVD 的定義,將現(xiàn)有方法劃分為五大方向,厘清了技術發(fā)展的完整脈絡;
      • 貢獻三:梳理了目前用于數(shù)據(jù)價值密度增強領域的代表性數(shù)據(jù)集,深度剖析了不同任務的數(shù)據(jù)內(nèi)在特性;
      • 貢獻四:指出了數(shù)據(jù)價值密度增強領域所面臨的挑戰(zhàn),為學術界和工業(yè)界在本領域的探索指明了有潛力的方向。

      框架介紹

      基于 DVD 的數(shù)學定義中分子 V (D∣C) 與分母 μ(D) 的動態(tài)變化關系,作者將數(shù)據(jù)價值密度增強領域劃分為五大類別(如圖 2 所示):

      • V (D∣C) 提升,μ(D) 不變:在數(shù)據(jù)規(guī)模固定的情況下,提升數(shù)據(jù)總體價值,包含數(shù)據(jù)調度,數(shù)據(jù)混合,增強式生成等策略;
      • V (D∣C) 不變,μ(D) 下降:在數(shù)據(jù)總體價值不變的情況下,降低數(shù)據(jù)規(guī)模,包含重復數(shù)據(jù)去除,數(shù)據(jù)蒸餾等策略;
      • V (D∣C) 提升,μ(D) 下降:在數(shù)據(jù)總體價值提升的情況下,降低數(shù)據(jù)規(guī)模,包括負價值數(shù)據(jù)去除等策略;
      • V (D∣C) 略降,μ(D) 暴降:在數(shù)據(jù)總體價值輕微下降的情況下,數(shù)據(jù)規(guī)模大幅度下降,包括高價值數(shù)據(jù)篩選等策略;
      • V (D∣C) 暴增,μ(D) 略增:在數(shù)據(jù)規(guī)模輕微上升的情況下,數(shù)據(jù)總體價值大幅度上升,包括數(shù)據(jù)進化等策略。



      圖 2:DVD 增強方法分類框架

      為了更好地理解各類 DVD 增強策略,作者用一張清晰的示意圖進行形象化的展示,示意了不同類型的 DVD 增強策略實施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化(如圖 3 所示)。



      圖 3:五類 DVD 增強策略的實現(xiàn)原理

      主流數(shù)據(jù)集

      除去方法論相關介紹,本篇 Survey 同時整理了 DVD 增強研究中高頻使用的數(shù)據(jù)集,并根據(jù)任務特性將其分為三大板塊(如表 1 所示):

      • 文本理解: 從高達上萬億 Token 的無標簽預訓練語料,到少而精的有標簽后訓練數(shù)據(jù);
      • 復雜推理: 針對不同類型的推理任務(如邏輯推理與常識推理),收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集;
      • 垂直領域: 梳理了醫(yī)療、法律、金融等多個領域的相關數(shù)據(jù)集。



      表 1:DVD 增強領域的主流數(shù)據(jù)集

      同時,文章還將 DVD 增強與當前火熱的上下文學習(In-Context Learning)、能力密度(Capacity Density)、樣本效率(Sample Efficiency)和主動學習(Active Learning)進行了深度對比,打通了不同研究范式之間的底層邏輯。

      前路與挑戰(zhàn)

      盡管 DVD 增強技術已經(jīng)取得了一定的成果,本文指出了 DVD 增強當前面臨的四大挑戰(zhàn)(如圖 4 所示):

      • “黑盒” 可解釋性差:現(xiàn)有方法高度依賴人類經(jīng)驗,數(shù)據(jù)對模型能力分布的影響、數(shù)據(jù)點之間的交互模式等仍缺乏嚴謹?shù)睦碚摽蚣苤危?/li>
      • 實施成本昂貴:雖然大量方法減少了模型訓練所需的數(shù)據(jù)量,降低了訓練成本,但為了達成這一目的所產(chǎn)生的額外成本開銷可能是巨大的,例如調用 LLM 進行大規(guī)模采樣、訓練打分模型等;
      • 人工與自動化的兩難:現(xiàn)有 DVD 增強策略通常涉及大量的數(shù)據(jù)操作。若選擇專家標注,其質量可控但成本極高,若選擇模型自動化處理,其效率極高但極易引入幻覺。因而 DVD 增強技術中的相關數(shù)據(jù)操作需要在人工和自動化之間做好平衡,在保證數(shù)據(jù)質量的前提下降低數(shù)據(jù)操作成本;
      • 垂直領域研究空白:由于專業(yè)性、安全隱私、獲取成本等因素,垂直領域的數(shù)據(jù)往往是稀缺的,其更需要 DVD 增強策略來緩解這一困境。然而,目前針對垂直領域的 DVD 增強策略較少。并且,由于垂直領域的數(shù)據(jù)具有獨特的特征,針對通用任務的方法在應用于垂直領域時,性能往往較差。因而,工業(yè)界急需針對垂直領域的 DVD 增強策略。



      圖 4:DVD 增強面臨的四大挑戰(zhàn)

      結語

      本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā),系統(tǒng)地梳理了大模型訓練數(shù)據(jù)價值密度增強領域的完整路線圖。這一領域的研究有助于解決當下 LLM 訓練數(shù)據(jù)枯竭與算力開銷大等問題。

      期待這篇 Survey 能為社區(qū)提供一份實用的參考指南,幫助研究者快速把握數(shù)據(jù)價值密度增強的底層邏輯,推動大模型訓練模式從粗放式數(shù)據(jù)消耗向精準化知識萃取的根本性跨越。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      格列茲曼:C羅值得贏一次世界杯;最喜歡帕瓦爾對阿根廷時的世界波

      格列茲曼:C羅值得贏一次世界杯;最喜歡帕瓦爾對阿根廷時的世界波

      懂球帝
      2026-05-14 10:51:37
      遼籃青年隊從3分惜敗到兩連勝場均贏36分!大哥執(zhí)教有方,未來可期

      遼籃青年隊從3分惜敗到兩連勝場均贏36分!大哥執(zhí)教有方,未來可期

      君馬體育
      2026-05-15 00:57:18
      又一“水果騙局”被曝光!背后全是科技與狠活,網(wǎng)友:智商稅

      又一“水果騙局”被曝光!背后全是科技與狠活,網(wǎng)友:智商稅

      品牌觀察官
      2026-05-14 17:17:47
      瞞不下去了,真的需要徹查了!

      瞞不下去了,真的需要徹查了!

      胖胖說他不胖
      2026-04-25 14:12:40
      面對中國時,特朗普像換了個人,落地北京后,對華提了一個請求

      面對中國時,特朗普像換了個人,落地北京后,對華提了一個請求

      云崖聽松
      2026-05-15 02:51:29
      故事:白宮幕僚位置到手,特朗普御用風水師,卻在關鍵時刻放棄了

      故事:白宮幕僚位置到手,特朗普御用風水師,卻在關鍵時刻放棄了

      宅家伍菇?jīng)?/span>
      2024-11-07 17:35:34
      越扒越有!閆學晶風波僅3月,難堪的一幕發(fā)生,王紅梅成眾矢之的

      越扒越有!閆學晶風波僅3月,難堪的一幕發(fā)生,王紅梅成眾矢之的

      星娛叨叨社
      2026-05-14 15:30:00
      太聰明了!安徽一招根治漫天楊絮,值得全國效仿

      太聰明了!安徽一招根治漫天楊絮,值得全國效仿

      一口娛樂
      2026-05-14 12:01:40
      臺灣統(tǒng)一猜想升溫,候選人名單浮出水面,誰最能穩(wěn)住民心?

      臺灣統(tǒng)一猜想升溫,候選人名單浮出水面,誰最能穩(wěn)住民心?

      川川八卦說
      2026-05-14 08:15:13
      “香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

      “香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

      許三歲
      2026-03-26 11:35:13
      50歲后還能輕松做到這兩件事,恭喜你,大概率會長壽

      50歲后還能輕松做到這兩件事,恭喜你,大概率會長壽

      方舟健客科普
      2026-05-14 18:13:44
      馬塞洛兒子放棄巴西選西班牙?父親吐露心聲:西足協(xié)誠意太足了!

      馬塞洛兒子放棄巴西選西班牙?父親吐露心聲:西足協(xié)誠意太足了!

      仰臥撐FTUer
      2026-05-14 20:35:04
      全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

      全職爸爸靠帥臉火了,全網(wǎng)卻為他的“豪門婚姻”吵翻了

      媽咪OK
      2026-05-08 19:54:01
      法新社鏡頭下的中國軍人,不動如山

      法新社鏡頭下的中國軍人,不動如山

      三叔的裝備空間
      2026-05-14 21:50:39
      小米SU7全車攝像頭突然集體失靈!4S店:外力滲液,不保修!車主蒙了:我沒撞沒泡水啊

      小米SU7全車攝像頭突然集體失靈!4S店:外力滲液,不保修!車主蒙了:我沒撞沒泡水啊

      魯中晨報
      2026-05-14 17:14:03
      盤點NBA5大“打劫式”交易:喬治成全雷霆,第1成就公牛王朝

      盤點NBA5大“打劫式”交易:喬治成全雷霆,第1成就公牛王朝

      兵哥籃球故事
      2026-05-14 19:10:39
      俄軍打1500天沒動,美軍中校放話:換中國軍隊,3天就夠了?

      俄軍打1500天沒動,美軍中校放話:換中國軍隊,3天就夠了?

      老謝談史
      2026-05-14 11:15:26
      89年前那場災難,照片為何至今仍讓人窒息

      89年前那場災難,照片為何至今仍讓人窒息

      時光慢郵啊
      2026-05-13 07:19:13
      43歲未婚官宣二胎,網(wǎng)友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網(wǎng)友傻眼了:姐你糊涂啊……

      FUFASHION
      2026-05-14 21:06:25
      2026-05-15 04:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12996文章數(shù) 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      時尚
      健康
      旅游
      房產(chǎn)
      本地

      白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

      專家揭秘干細胞回輸?shù)陌踩L險

      旅游要聞

      日照五蓮:云海日出映青山

      房產(chǎn)要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产综合无码一区二区辣椒| 国产亚洲合集| 欧美日韩一卡二卡| 91精品最新国内在线播放| 国产一区二区精品高清在线观看| 日韩a在线播放| 亚洲日韩中文第一精品| 亚洲日本中文综合在线 | 激情偷拍av| 人人妻人人爽人人澡av| 日韩高清在线中文字带字幕| 国产成人美女视频网站| 最新午夜男女福利片视频| 久久亚洲精品中文字幕无码| 黄色a一级视频| 欧美人与物ⅴideos另类 | 有码专区一区二区三区| 亚洲国产精品美女| 国产精品泄火熟女| 18禁网站免费无遮挡无码中文| 最新国产亚洲swag精品| 国产成人精品视频一区二区三| 日日噜噜夜夜狠狠va视频v| 欧美内射深喉中文字幕| 亚洲VA无码VA在线VA天堂| 午夜肉伦伦影院| 午夜嘿嘿嘿影院| 亚洲精品不卡av在线播放| 老司机免费福利视频| 久久国产精品波多野结衣| 麻豆果冻传媒2021精品传媒一区| 视频一区二区不中文字幕| 精品视频一区二区| 无码AV高清毛片中国一级毛片| 大肉大捧一进一出视频出来呀 | 天天看片天天av免费观看| 国产按头口爆吞精在线视频| 日本乱码在线看亚洲乱码| 黑人无码av| 91乱码一区二区三区| 丽水市|