網易首頁 > 網易號 > 正文申請入駐

別問樹模型了!死磕結構化數據,清華團隊把大模型表格理解推到極限

2025-11-21 12:05:36　來源: 機器之心Pro

北京舉報

分享至

機器之心原創

作者：張倩、Panda

科幻作家劉慈欣在小說《超新星紀元》中描述了一個令人難忘的場景——幾個十幾歲的孩子被帶到一個小山環繞的地方，他們的面前是一條單軌鐵路，上面停著十一列載貨火車，每列車有二十節車皮。這些車首尾相接成一個巨大的弧形，根本看不到盡頭。這些車中，其中一列裝的是味精，另外十列裝的是鹽。

「這么多的味精和鹽夠我們國家所有的公民吃多長時間？」帶孩子們來的大人向他們提問?！敢荒?？」「五年？」「十年？」沒有一個孩子答對。最后的答案讓他們目瞪口呆：「只夠一天」。

這個場景之所以令人難忘，是因為它以一種非常具象的方式向我們展示了這個世界的運轉多么難以被普通人準確感知。它的背后是海量的精確數字：負責供應鹽和味精的部門需要算出每個周期要生產多少才能滿足需求；負責生產的工廠要監控機器運轉情況，從一堆精確卻晦澀難懂的數字、代碼中讀出問題；而給機器供電的電力系統也要監測和變壓器相關的一切數據，避免非計劃停機帶來高昂的搶修成本和難以估量的用戶損失。

這個世界，就是以這樣一種精確的方式運轉著。那些數字就像我們每天呼吸的空氣，你可能感覺不到它們的存在，但一旦它們出了問題，你的感知將會非常強烈。

也正因如此，這些數據的處理至關重要。由于這些數據往往以固定的行列格式組織，數據之間的結構關系是預先定義好的，因此也被稱為「結構化數據」?？梢哉f，我們在工業化社會體驗到的幾乎所有便利，背后都依賴著這些結構化數據的理解、處理與預測。

然而，在 AI 席卷一切的今天，處理這些最基礎的數據，卻成了最大的痛點。

我們寄希望于看似無所不能的 LLM 大模型。但現實很骨感：LLM 擅長寫詩與編程，但卻很難讀懂一張簡單的電子表格，因為 LLM 的建模方式（涉及到文本的模糊性）與結構化數據所要求的精確性存在巨大 gap，一直達不到生產要求。

這一現狀也導致，整個行業都還在用已經存在了十幾年的專用模型，每遇到一個新的數據集或者一個新任務可能就要重新訓練一個。這就好比為了喝一杯新口味的咖啡，你必須重新造一臺咖啡機。這種低效的生產方式與始終追求高效率、強泛化能力的 LLM 領域形成了鮮明對比，也成了阻礙產業發展的一大瓶頸。

這也是為什么，前段時間清華大學與穩準智能聯合發布的LimiX 系列模型讓人眼前一亮。作為他們提出的「LDM（結構化數據大模型）」的重要成員，LimiX 做到了 LLM 沒有做到的事情，把結構化數據的處理帶入了大模型時代。這會改變整個工業 AI 的游戲規則，成為 LLM、具身智能之外通往 AGI 的另一大關鍵路徑。

第一次，在結構化數據上

做到了「通用」！

為什么說 LimiX 的出現有著劃時代的意義？

本質是因為，它第一次在結構化數據領域把「通用」這件事做成了！

參加過 Kaggle 的同學都知道，結構化數據領域有很多任務，比如分類、回歸、缺失值填補、高維表征抽取、分布外泛化預測……比如根據年齡、艙位等級等乘客特征預測泰坦尼克號乘客是否幸存（分類），基于鉆石的克拉重量、切工、顏色、凈度等屬性預測鉆石售價的連續值（回歸）等。當然，現實世界的問題遠比這些復雜。

在過去的十幾年里，解決這些問題主要依靠梯度提升樹模型（比如 2014 年發布的 XGBoost、2017 年發布的 CatBoost 等）或 AutoML 集成模型（比如亞馬遜在 2020 年提出的 AutoGluon）。就像我們前面所說的，這些模型都是專有模型，每次遇到新任務或新數據集都要重新訓練。這和早就實現一個模型通吃各種任務的NLP領域相比，簡直落后了不止一個版本！

當然，這些年，有不少研究者嘗試將深度學習甚至基礎模型思想引入結構化處理領域，像德國 Prior Labs 團隊提出的 TabPFN、法國 INRIA 團隊提出的 TabICL、加拿大 Layer 6 AI 團隊提出的 TabDPT 等都是這一方向的代表。但這些工作都有個特點：它們本質上還是針對不同的任務分別去做專門的預訓練，并沒有做到真正的通用，而且對于高質量的缺失值填補等任務，很多方法還無法解決。

LimiX 模型（今年8月份發布的 LimiX-16M， LDM 系列的首款模型）是一個打破僵局的存在。它在性能上碾壓前述基礎模型，超越 XGBoost、CatBoost、AutoGluon 這樣的傳統專用模型更是不在話下

LimiX官網：https://www.limix.ai/
技術報告：https://arxiv.org/pdf/2509.03505
HuggingFace鏈接：https://huggingface.co/stableai-org

更重要的是，它第一次做到了真正的通用，也就是一個模型，在不進行二次訓練的情況下，就能用于分類、回歸、缺失值填補、高維表征抽取、因果推斷等多達 10 類任務。

簡單來說，LimiX 不再像傳統模型那樣死記硬背某個特定表格的規則，而是通過學習海量數據，能夠自主發現樣本之間和變量之間的關系并適應不同類型的任務。這使得 LimiX 擁有了類似 GPT 的能力：一個模型，通吃所有任務。對于LLM領域的研究者來說，這個劇情應該很熟悉了，當年語言模型的突破，就是從「橫掃xx項NLP記錄」開始的。

同時，LimiX 在 benchmark 上的一路領先，也讓我們看到了一些優秀 LLM 的來時路。

比如在一場分類任務的對決中，LimiX-16M 在 58.6% 的數據集上都取得了最優結果，斷崖式領先。如果再加上其輕量級版本 LimiX-2M 的成績，整個 LimiX 家族的勝率甚至可以達到 68.9%。

類似的情況也出現在回歸任務的 PK 中。同樣的，LimiX 的兩個模型包攬了前兩名，合在一起勝率能達到 62%。和其他模型相比，LimiX-16M 同樣是斷崖式領先。

此外，對于近期 Prior Labs 團隊的挑戰者 TabPFN 2.5，LimiX 成功守擂?？梢钥吹?，在涉及分類、回歸的六項評測中，LimiX-16M 依然保持著絕對優勢。

LimiX 還是一個數據填補神器：在現實數據中，經常會有「缺胳膊少腿」的空值。其它預測模型無法直接解決這個任務，而 LimiX 可以像填空一樣，精準預測并補全這些缺失值，且無需額外訓練。在所有缺失值插補算法中，LimiX 以絕對優勢拿下了 SOTA。

不止是跑分王

現實也能打

有人可能說，跑分好看的模型多了，現實中不還是沒一個能打的。

LimiX 還真不是這種情況。它具備驚人的穩健性，使其足以落地實際工業場景。我們了解到，LimiX 已經在一些實際工廠中化身「打工人」了。工廠的任務可不像 Kaggle 賽題那樣經過簡化處理，隨便拿出來一個都千頭萬緒。

就拿最容易理解的食品生產為例。我們知道，很多食品在出廠之前要經過烘干，如果哪個參數沒調好，我們買到手的食品就會出現提前變質等問題。以往，食品廠都是依賴事后檢測，也就是先烘干，再測含水量，不合格就返工或報廢。但如果能提前預測，成本不就打下來了？

這正是 LimiX 發揮作用的環節，它可以精準建模氣流流速、燃燒器溫度、設備蒸汽比例等工藝參數與產品含水量的復雜關系，使得預測值與真實值平均偏差不到9%，而且模型能解釋92%的結果變化，可靠性極強。

類似的案例還有很多，比如在電力現貨市場預測電價時，LimiX 可以將企業內部最優模型的誤差從 46.93% MAPE 大幅降低到 25.27% MAPE；而在變壓器運行狀態診斷中，它能將運行狀態診斷錯誤率降低 93.5%（相較于傳統預測模型 XGBoost）。

所以，無論從跑分還是實際落地情況來看，LimiX 都是一個充滿變革意味的模型。而且，這個模型不僅企業能用，普通研究者也能上手，因為LimiX 團隊最近開源了一個輕量級版本——LimiX-2M。

LimiX-2M

極小模型定義結構化數據理解極限

2M模型就能做結構化數據處理？

是的，LimiX-2M 雖然體積小，但性能卻著實驚人：力壓 TabPFN-v2 和 TabICL，超越集成學習框架 AutoGluon，僅次于其大哥 LimiX-16M

更重要的是，它很小，你甚至能在智能戒指上運行它

具體來說，它能通過分析戒指傳感器收集到的結構化位置信息，識別出佩戴者的手勢。這種應用具有非常巨大的想象空間。舉個例子，通過與智能家居系統連接，我們可以手勢控制家里的各式電器，比如像滅霸一樣打個響指，就能開關家里的所有電燈。

當然，在比邊緣設備性能更強的設備上，這個小模型的速度也會快得多。

舉個例子，如果是處理 958 條、60 維特征的 IMU 數據，在2 核 CPU、4G 內存的低算力環境（差不多就是個樹莓派的配置）下，LimiX-2M 單樣本 375 毫秒, 總耗時為 359 秒。相較之下，TabPFN-2.5 的總耗時為 1830 秒，比 LimiX-2M 慢 5 倍。而如果你有一臺 RTX 5090，則單樣本平均耗時僅 0.206 毫秒，總耗時也只有 197 毫秒，真的可以說是眨眼之間就完成了！

LimiX-2M 不止性能與速度兼備，而且也能輕松地低成本微調——你只需家用顯卡就能有效微調它！推理快、門檻低的特點使 LimiX-2M 成為助力研究和應用落地的不二之選：即使是只有一張 4090 顯卡的小型科研團隊或創業公司，也可以在自己的場景中使用、微調 LimiX-2M，從而開展此前根本無法進行的前沿AI實驗。

在量子化學領域，如何去評估小有機分子的一組量子力學性質（包括激發能、振子強度和躍遷概率等）對探索分子特性非常重要。但是目前，這些性質只能通過高精度的量子化學方法（如 TDDFT 或 CC2）計算得出，量子力學性質計算成本高昂且耗時。

通過使用 LimiX-2M 對各類量子力學性質進行預測，預測的擬合優度最高可達 0.711，顯著超越 TabPfn-2.5（0.658），經過微調后更是達到了 0.815。這節省了大量的實驗成本，允許相關研究人員快速進行高通量分子發現。這再次證明了該模型非常適合邊緣設備應用以及科研場景。你不必像 LLM 研究者一樣需要大量算力，只需一臺日常用來玩游戲的電腦，就能輕松高效地進行實驗

11月 10 日正式發布后，LimiX-2M 在 ModelScope 上已經有超過 1200 次下載，在網上也收獲了不少好評。

同時，LimiX 還發布了詳細的應用指南（https://zhuanlan.zhihu.com/p/1973033408901964300），手把手教你如何將 LimiX 應用到自己的數據上。無需復雜的格式處理，只要簡單的幾行代碼即可接入最前沿的結構化數據大模型。無論是純 CPU 的簡單嘗鮮，還是單 GPU 的深度應用，還是多機多卡的極限推理，LimiX 都能 Handle！此外，LimiX 的社區非?；钴S，GitHub 上的問題響應速度極快。

一場范式遷移正在發生

從 LimiX 系列模型中，我們能明顯感覺到，一個新的時代真的來了。因為和以往不同，LimiX 所展現的絕對不是漸進式的改進，而是一種新的范式遷移。在 LimiX 技術報告中，研究團隊甚至報告了 LDM 的 scaling laws。這進一步揭示了該領域正在邁入規?；寗拥男路妒?。想要更極致的性能？Just scale it

不同參數量模型的分類（左）、回歸（右）損失函數隨訓練數據量的變化趨勢。數據量增大時，損失值先快速降低后緩慢下降。

在不受數據集規?；蛴嬎泐A算限制的情況下，下游任務損失與性能隨模型參數規模的變化?？梢钥吹?，多項性能指標均與模型參數數量 N 呈現明顯的依賴關系。

對于大部分人來說，這場從傳統專用模型到「LDM」通用模型的遷移可能很難感知。但無論是日常生活中穩定供應的生活必需品，還是背后龐大的工業體系，幾乎所有決策都建立在結構化數據的預測與調度之上。而 LDM 正是在這個隱蔽但關鍵的層面上，重新定義智能的邊界，其重要性完全不亞于現在被討論最多的語言智能和具身智能。更準確地說，它和后兩者是互補關系，都是通往 AGI 的關鍵步驟。

而且，正如清華大學長聘副教授崔鵬所強調的那樣：將 AI 與工業場景深度結合，在我國具有格外突出的必要性。工業本身就是我國最具資源稟賦的領域，我們在工業數據的規模、覆蓋面、質量，以及相關政策支持的力度上，都遠遠領先于其他國家。這意味著，一旦在這一領域形成新的技術范式，其落地深度與產業帶動力將是全球范圍內少有的。

從這個角度來看，LimiX 所取得的成果更加令人欣慰，它力壓 Amazon AWS、INRIA 等一系列頂尖機構，在諸多性能測試上登頂。該模型的開源讓中國在非結構化數據建模領域真正站到了世界前沿。

我們也期待國內團隊把這一方向的邊界推得更遠。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.