<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      表格建模也能Scaling?樹模型的時代要改變了

      0
      分享至



      一張 H100 相當于多少個 Hadoop 實例?

      讓我們先從一個有趣的問題開始:站在 2026 年的當下,一張 H100 GPU 的單卡算力(FP16)大約相當于多少個 Hadoop 實例?

      答案是:約 200 個( 單卡 H100 vs 一臺 96 核 CPU 實例)。

      這個數字背后隱藏著一個值得深思的現象:過去幾年中,AI 的快速發展極大推動了算力的指數級增長。然而在結構化數據建模這一領域,行業主流方法仍然是以樹模型為核心的垂直場景化解決方案。

      這就形成了一個有趣的 "反差":一邊是各大科技公司和大量初創企業正通過不斷升級的大語言模型推動 AI 生產力的躍遷,另一邊是在金融、醫療、電商、物流、工業制造等高價值行業中,真正承載智能化任務的,仍主要是以 XGBoost、隨機森林為代表的樹模型。這種反差讓我們不得不開始思考:當算力革命發生時,結構化數據建模的 "平衡點" 是否也該被重新定義?

      "苦澀的教訓" 與結構化數據的困境

      從更宏觀的角度看,大模型研發所遵循的核心思想,可以追溯到 Richard Sutton 提出的 “苦澀的教訓”(The Bitter Lesson):在 AI 的長期發展中,那些能夠隨著計算規模持續擴展的通用學習方法,往往最終會超越依賴人類直覺與領域知識精心設計的系統。

      大語言模型的成功正是這一規律的典型體現 —— 通過統一架構與大規模數據訓練,LLM 在 NLP 領域實現了跨任務、跨場景的能力遷移。然而,當企業在實際業務中解決監督學習問題時,情況卻呈現出明顯反差。即使在嘗試引入深度學習時,也往往需要依賴復雜的數據流水線、特定架構設計以及大量領域知識的引入。這相當于用 "手工作坊" 的方式,去應對 "工業化生產" 的需求。于是出現了一個頗為有趣的現象:一方面,各大科技公司和大量初創企業正通過不斷擴大的大語言模型推動 AI 生產力的躍遷;另一方面,在金融、醫療、電商、物流、工業制造、農業等高價值行業的重要社會經濟領域中,真正承載智能化場景任務的,仍主要是以 XGBoost、隨機森林為代表的基于樹的表格分類模型或垂域深度學習分類模型,這進一步激發了我們探索結構化數據模型 scaling 上限的興趣。

      回顧歷史,XGBoost 在 2014 年被廣泛視為機器學習領域中算力、算法與數據三要素之間的一個 “平衡點”。但十二年后的今天,隨著 GPU 算力的快速迭代并帶來數量級提升,這一平衡點是否已經發生改變?結構化數據建模是否也可能像 NLP 和 CV 一樣,通過新的計算范式實現突破?回到開篇的問題:當單張 H100 與一臺 96 核 CPU 服務器之間已經存在約 200 倍的 FP16 算力差距時,一個自然的想法是 —— 是否可以將 GPU 的大規模并行算力真正引入結構化數據建模,并通過預訓練范式重新平衡算力、數據與算法這三大核心要素。

      千億級樣本預訓練實踐

      本文將重點介紹浙大 X 螞蟻 AIforData 團隊的探索:基于螞蟻集團海量的異構結構化數據以及豐富的下游業務場景,實現了千卡 GPU 集群下百億級樣本規模的結構化數據預訓練,并系統評估了預訓練模型在下游任務中的表現,實驗結果表明:

      1. 在工業級表格數據集上,預訓練模型的性能可以穩定且顯著地超越傳統樹模型

      2. 表格數據預訓練模型呈現出明顯的 scaling law

      3. 行為序列預訓練模型同樣表現出良好的 scaling law

      工作 1: 表格數據預訓練與 Scaling Law

      https://arxiv.org/abs/2602.22777

      KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互聯網超大規模表格數據的混合深度學習架構(中稿 The Web Conference 2026)。面對工業場景中數十億樣本、數千異構特征的建模挑戰,KMLP 創新性地將淺層 KAN 作為前端特征工程構造器,結合 gMLP 主干網絡捕獲高階交互,實現了端到端的自動化特征表示學習。



      在包含 20 億樣本的真實信貸評分數據集上,KMLP 展現出顯著的規模優勢:隨著數據量級提升,其相對于傳統 GBDT 模型的性能優勢持續擴大。這一發現驗證了 KMLP 作為可擴展深度學習范式的潛力,為大規模動態互聯網表格數據建模提供了新路徑。



      KMLP 的核心價值在于解決了傳統方法的雙重瓶頸:一方面克服了 GBDT 在超大規模數據集上分布式計算效率問題,另一方面通過可學習激活函數擺脫了對人工特征工程的依賴,實現了特征異構性與交互建模的統一。其相對于傳統 GBDT 模型的性能優勢持續擴大;解決了 GBDT 分布式計算效率問題和人工特征工程依賴。

      工作 2: 行為序列預訓練與 Scaling Law

      https://arxiv.org/abs/2412.12468

      用戶行為時序數據,作為刻畫用戶的關鍵結構化數據之一,對于用戶理解與建模起著重要作用。在用戶建模時如何利用以及如何利用好更多的用戶行為序列數據,是一個重要的研究課題。

      FOUND:時序數據的語義級應用

      FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 團隊發布在 The Web Conference 2025(WebConf 25)中的工作,面向互聯網平臺中多種來源的序列數據和結構化數據,構建了工業級、具有預測性的用戶表征框架。

      當前許多用戶理解方法面臨兩大顯著挑戰:(i) 跨領域和跨場景的可遷移性及泛化能力較弱 (ii) 在實際應用中的預測能力不足。為了增強跨領域遷移能力,FOUND 框架整合了多場景用戶數據,并在用戶建模時創新性地通過對比學習預訓練將其與根據序列語義整理得到的文本進行對齊。為了提高預測性,每個用戶的文本描述基于用戶未來的行為推導得出,而用戶表征則由歷史信息構建而成,使用過去 - 未來語義對齊的方式構造訓練樣本對。

      由該框架產出的用戶表征在真實場景 benchmark 和業務上均獲得了增益。同時引入自然語言監督的方式也使得模型天然支持人群圈選這一用戶理解任務,該預訓練框架支持的圈人能力在下游取得了大量收益,支持超過 50 個業務場景。



      序列數據的 Scaling Law

      在有了上述預訓練框架后,我們思考如何將綜合互聯網平臺中更多更長的用戶行為序列引入到模型中來。針對多種來源的序列數據,各自設計編碼器會存在訓練成本過高、表達空間不統一等缺陷,同時如何發揮更多輸入序列數據的最大性能也是一個問題,即需要探索輸入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶頸。

      在實驗探索過程中我們發現,輸入序列長度 / 用戶數目在數量級較少時,性能隨著天數 / 用戶數目(指數)近似線性提升,Scaling 現象明顯;但在輸入序列增長、用戶數目增加時增長緩慢,出現 Scaling 瓶頸。為解決該問題,除了增加參數這種模型層面的 Scaling,提升輸入用戶數據的信息密度,即對用戶信息進行壓縮,不失為一種節約成本且輕量的方案。在使用 RQ-VAE 方案進行用戶序列數據壓縮后,我們觀測到出現數據增長瓶頸得到延緩,說明了壓縮帶來突破瓶頸的 Densing Law 現象。

      核心結論:在輸入序列長度 / 用戶數目在數量較少時性能隨著天數指數的 Scaling 現象明顯,輸入序列長度和用戶數目增加至較大量級時出現 Scaling 瓶頸,而壓縮數據可以通過提升信息密度帶來突破瓶頸的 Densing Law 現象。





      基于以上原始和壓縮輸入的 Scaling Law,我們設計了基于統一用戶量化壓縮的用戶理解方案,將用戶的多源序列等數據使用設計的 MRQ-VAE 方案壓縮成語義 token ID 提升信息密度,并在此基礎之上 Scaling 得到了更佳性能的用戶模型。產出的通用用戶表征在 80% 以上真實場景 benchmark 中相比之前原始數據輸入版本均有提升,并在數字金融、支付安全、營銷推薦、廣告等業務中全面應用。

      總結與展望

      回到開篇的問題:當算力已經發生數量級變化時,結構化數據建模的范式是否也該隨之改變?

      螞蟻 x 浙大 AIforData 團隊的探索給出了肯定的答案。Scaling Law 正在從 NLP、CV 延伸到結構化數據領域—— 這或許意味著,那個依賴人工特征工程和場景化調參的時代,真的要過去了。

      "當算力天平已經傾斜,平衡點也該重新定義。"

      未來,隨著算力的持續增長和預訓練范式的成熟,我們有理由相信:結構化數據建模將迎來屬于自己的 "大模型時刻"。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      思思夜話
      2026-05-12 16:51:58
      32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

      32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

      世界體育圈
      2026-05-12 18:57:17
      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

      雷科技
      2026-05-11 18:05:22
      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      營銷頭版
      2026-05-10 20:09:26
      越來越多的小城市和縣城,只剩下體制內經濟了!

      越來越多的小城市和縣城,只剩下體制內經濟了!

      燈錦年
      2026-05-12 21:06:47
      耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

      耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

      醫諾維
      2026-05-11 17:02:18
      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

      新浪財經
      2026-05-12 00:15:49
      太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

      太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

      TVB的四小花
      2026-05-13 01:00:44
      深夜,全線下跌!美聯儲,突傳重磅!

      深夜,全線下跌!美聯儲,突傳重磅!

      券商中國
      2026-05-12 22:39:48
      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      火山詩話
      2026-05-12 13:45:35
      同一天兩起猝死!馬拉松再現悲劇:高溫+低齡參賽

      同一天兩起猝死!馬拉松再現悲?。焊邷?低齡參賽

      老王談跑步
      2026-05-12 15:03:29
      A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

      A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

      好火子
      2026-05-13 00:41:17
      “新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

      “新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

      都市快報橙柿互動
      2026-05-12 15:26:35
      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

      創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

      邱澤云
      2026-05-13 02:36:31
      國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

      國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

      懂球帝
      2026-05-12 09:44:11
      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      無意爭春
      2026-05-12 12:24:43
      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      細說職場
      2026-05-10 09:55:02
      東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

      東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

      九方魚論
      2026-05-11 09:16:33
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      真的好愛你
      2026-05-12 06:49:30
      2026-05-13 04:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      教育
      游戲
      數碼
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      求求你試試「5+1+1」學習法!!!

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av不卡一区| 亚洲天堂久久一区av| 无码帝国www无码专区色综合| 亚洲精品字幕在线观看| 丝袜美腿在线观看播放一区| 丰满人妻熟妇乱又伦精品视频三| 亚洲综合精品伊人久久| 亚洲一区二区三区自拍高清| 国产熟女在线播放| bt天堂在线bt网| 成人国产综合| 亚洲av一区二区在线看| 丝袜制服无码国产| 国产亚洲av日韩精品熟女| 天天看天天拍天天谢| 国产在线视频二区| 精品国偷自产在线| 国产老熟女伦老熟妇露脸| 久久国产综合色图| 精品久久精品久久人妻| 人妻熟女一区二区av| 亚洲人成网网址在线看| 天天综合色天天综合色hd| 99中文精品7| 成人国产在线看不卡| 亚洲精品国男人在线视频| 国产精品成人国产乱| 原味小视频在线www国产| 韩国福利片在线观看播放| 亚洲AV第二区国产精品| 熟女俱乐部五十路六十路| 久久综合精品无码AV一区二区三区| 久久婷婷五月综合色首页| 亚洲午夜无码久久久久| 国产a级精精彩大片免费看| 国产免费视频| 日韩乱码av| 中文字幕无码日韩欧毛| 亚洲av日韩综合一区尤物| 97人摸人人澡人人人超一碰| 国产精品亚洲二区在线播放|