網易首頁 > 網易號 > 正文申請入駐

一個框架，重塑具身研發流程：Dexbotic走向具身PyTorch

2026-05-12 09:27:08　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

近日，開源具身智能原生框架Dexbotic宣布正式支持以RLinf作為其分布式強化學習后端。對具身智能開發者而言，這不僅是一次普通的工程適配，更意味著 VLA 模型研發中長期存在的「SFT 與 RL 割裂」問題，正在被真正打通。

這是一種典型的「樂高式協作」：雙方不強行 Fork、不粗暴揉合代碼，而是保持清晰邊界，通過標準接口完成模塊化拼裝。Dexbotic 不隱藏、不替代 RLinf，而是為其能力提供自然的承接入口；RLinf 也不侵入 Dexbotic 的策略生態，而是以穩定可靠的分布式 RL 能力，為模型后訓練提供底座。

更重要的是，Dexbotic 通過后端適配器完整復用了 RLinf 原生的分布式能力，包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組以及 EmbodiedRunner。目前，該整合已在 LIBERO 系列任務套件中完成端到端驗證，可支持 PPO 等算法完成后訓練。對開發者來說，這意味著從模型開發、SFT Checkpoint 管理，到 RL 配置編寫與任務啟動，終于可以在同一個開發流中自然完成。

如果說大語言模型時代的黃金范式是「預訓練 + SFT + RLHF」，那么在具身智能時代，「VLA 預訓練 / SFT + 大規模 RL 后訓練」正在成為新的模型進化路徑。Dexbotic × RLinf 的打通，正是這一范式走向具身智能 PyTorch 的重要一步。

架構重塑

V-L-A 模塊化解耦與多源混訓

在復雜的物理世界中執行任務，機器人需要同時具備三種能力：敏銳的視覺感知、強大的邏輯認知、以及精細的運動控制。在過去，這三者往往被雜糅在一個極其厚重的黑盒網絡中，不僅訓練成本高昂，且任何單一模塊的改進都需要對整個系統進行重構。

Dexbotic 2.0 直擊這一痛點，在業界率先實現了 V（Vision Encoder，視覺編碼器）、L（LLM，大語言模型）、A（Action Expert，動作專家）的徹底模塊化解耦。

這種「樂高式」的架構設計，帶來了前所未有的工程彈性：同一套系統可以在感知、認知和控制三個層面進行獨立升級、自由替換與混搭。這意味著，算法工程師可以輕松地將最新的視覺基座接入原有系統以測試空間感知能力的提升，或者更換不同的動作頭（Action Head）以適配不同自由度的機械臂。這種符合軟件工程「開閉原則」的設計，為快速試驗新模型提供了極大的便利。

在解耦的基礎上，Dexbotic 2.0 帶來了其最具戰略意義的訓練特性：多源數據混合訓練（Co-training）

傳統的具身模型訓練往往面臨一個兩難困境：純互聯網數據缺乏物理世界的操作語義，而真實的機器人軌跡數據又極其稀缺且難以覆蓋長尾場景。Dexbotic 的解法是，用同一套訓練過程，讓模型把「看懂世界」和「動手操作」一起學會。

具體而言，視覺 - 語言模型（VLM）同時攝入多模態互聯網數據（圖像 / 視頻 + 文字）與機器人實操軌跡。在互聯網數據上，模型學習三類通用泛化能力：對場景生成精確描述（Caption）、將宏大指令拆解為可執行子步驟（Subtask），以及將自然語言錨定到三維空間中的具體對象（Grounding）。在此基礎之上，動作專家（Action Expert）接入系統，將上述高維語義理解直接轉化為連續的物理控制序列（如抓取、移動、放置）。

在最新的更新中，Dexbotic 甚至進一步支持了 CogACT 與 Pi0.5 模型的 Co-training（Action Expert + LLM 聯合優化）能力。互聯網海量數據賦予了模型「通用語義理解」，具身軌跡數據賦予了模型「可落地的操作技能」—— 兩者的聯合優化，使得機器人真正做到了「能說清、能看準、能做對」。

工程破局

SFT + RL 的黃金范式與單一入口設計

在大模型（LLM）的發展歷程中，SFT（監督微調）讓模型學會遵循指令，而 RLHF（基于人類反饋的強化學習）則讓模型的能力上限與人類對齊，兩者結合鑄就了 ChatGPT 的輝煌。同理，在具身智能領域，「VLA 預訓練 / SFT + 大規模 RL 后訓練」正在成為公認的黃金進化范式。

然而，長期以來，具身 RL 的工程落地堪稱災難。研究者必須在兩個獨立的開源項目間「來回奔波」：在 Dexbotic 等框架中完成 SFT 訓練拿到模型權重后，需要手動切換到復雜的 RL 框架倉庫，重新編寫任務配置、路徑適配與數據接口。這種人為割裂的流水線，不僅導致了極高的認知負荷，也讓代碼維護成本急劇上升。

為了打破這一桎梏，Dexbotic 與頂級強化學習框架 RLinf 達成了深度戰略合作，并在工程層面實現了教科書級別的融合。

開源具身智能原生框架 Dexbotic 宣布，正式支持以 RLinf 作為其分布式強化學習后端。此次整合的首要原則，依然是「樂高式架構」所體現的清晰邊界：

Dexbotic 穩守前端本職：繼續深耕機器人策略定義、模型注冊、Checkpoint 管理、專屬數據變換與用戶側實驗入口；
RLinf 穩守后端底座：承擔分布式 Rollout、優化、Worker 調度、日志記錄與 Runner 編排。

雙方拒絕了粗暴的代碼融合（Fork 強行揉合），而是實現了模塊化拼裝。結果是驚人的：開發者無需在兩個倉庫間跳轉，只需停留在 Dexbotic 項目內，通過一行極其簡潔的命令，即可啟動完整的 RL 后訓練流程。進階用戶依然可以通過 Hydra 靈活覆蓋底層配置。

更重要的是，通過后端適配器，Dexbotic 完整復用了 RLinf 原生的強大分布式 RL 能力（包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組等）。這意味著，Dexbotic 策略終于擁有一套可調、可訓、可增益的后訓練閉環，模型的動作質量與執行成功率得以持續躍升。

此外，Dexbotic 近期還正式支持了基于 GRPO（群體相對策略優化）的模型后訓練。該方案不依賴龐大的 Ray 框架，部署更加輕量，卻能實現環境多卡并行推理與點對點數據均勻分配，讓 RL 訓練吞吐量大幅提高，幫助機器人從「能做」跨越到「更穩定地做好」。

「各司其職，是最好的協作。」Dexbotic 不隱藏、不替代 RLinf，而是為其提供最自然的承接入口。當具身智能進入「持續進化」時代，工程棧的協同能力正成為核心競爭力，而 Dexbotic × RLinf 的牽手，無疑樹立了行業的標桿。

基礎設施

從數據、仿真到真機的完整閉環

如果說算法與架構是具身智能的大腦，那么數據流轉與硬件驗證機制則是支撐其運作的骨骼與血液。Dexbotic 2.0 系統性地標準化了具身開發的生命周期，從「數據 — 訓練 — 評測 — 硬件」四個環節構建了無縫閉環。

在數據引擎層面，框架提出了極簡且高效的 DexData 統一數據格式。該格式創造性地將 Prompt、子任務拆解、目標物體 3D 框選以及機械臂 2D/3D 軌跡信息整合于一體，大幅壓縮了多源數據對齊的工程開銷。

在評測基準層面，Dexbotic 展現出了強大的生態包容力。在仿真端，通過高度封裝的 Docker 環境，框架一口氣適配了 5 款主流物理仿真器，并將所有仿真訓練數據一鍵轉化為 DexData 格式開源至 Hugging Face，徹底掃清了「復現不公平」的科研障礙。在真機端，Dexbotic 更是直接打通了全球首個具身智能大規模真機評測平臺 RoboChallenge 的評測接口，并進行了全面開源代碼貢獻，讓「開發 - 訓練 - 推理 - 評測」的鏈路在物理世界中真正落地。

在最新前沿探索上，近日 Dexbotic 再下一城，新增對 UniNaVid 開源項目的深度支持。這不僅囊括了評測與 SFT 訓練能力，還完成了 DexDataset 數據格式的適配，一舉打通了導航任務從數據接入、模型微調到 Benchmark 評測的完整鏈路，為 VLN（視覺語言導航）與 Embodied Navigation 領域的持續迭代鋪平了道路。

在硬件支持層面，Dexbotic 從未停止擴展的腳步。在已有的 ALOHA、UR5、Franka、ARX5 陣營外，框架不僅加入了星海圖 Galaxea R1，還極具前瞻性地接軌了 NVIDIA GR00T N1，加速人形機器人的訓練部署。更值得一提的是，原力靈機推出了完全開源的硬件產品Dexbotic Open Source - W1 (DOS-W1)與 SO-101，并全面適配了 XLeRobot 生態。以 DOS-W1 為例，其設計圖紙、BOM 表與組裝代碼全面公開，大量采用的快拆結構與符合人體工學的抗疲勞設計，極大地降低了數據采集的門檻與設備維護成本。

巔峰驗證

DM0 —— 全球首個從零訓練的具身原生大模型

檢驗一個底層框架是否足夠強大的最好方式，是看它能孵化出怎樣的前沿模型。2026 年 2 月，基于 Dexbotic 框架研發的DM0 大模型震撼發布。

作為全球首個從零開始訓練的具身原生大模型，DM0 在權威真機評測基準 RoboChallenge 上，以 2.4B 的參數規模，一舉奪得單任務與多任務雙項第一，成功登頂全球榜首。

DM0 的成功，是對 Dexbotic 框架優勢的極致展現。其展現出的極高「智能密度」，得益于預訓練階段對操作、導航、全身控制三類核心任務的系統級混合。DM0 的訓練數據覆蓋了 UR、Franka 等 8 種構型迥異的機器人硬件，在強大的框架調度下，模型被迫去學習底層的、通用的「物理操作邏輯」，而非死記硬背特定硬件的運動學參數，從而獲得了令人矚目的跨機型泛化能力。

更令人驚嘆的是，依托 Dexbotic 的多模態數據處理能力，DM0 構建了獨創的「空間推理思維鏈（Spatial Reasoning Chain-of-Thought）」。模型能夠將環境感知、任務理解、運動規劃與精細執行進行邏輯串聯，完成諸如「先尋找目標、移開遮擋物、再進行拍照發送」這類需要長程多步驟空間推理的廣義復雜動作。

持續迭代

半年的生長，千人的共建

自 2025 年 10 月發布以來的短短數月，Dexbotic 展現出了令人側目的演進速度：

2025-10-20：Dexbotic VLA 代碼庫開源，提出數據、模型、實驗三大核心層級；
2025-12-29：全面適配支持 Pi0.5 與 OFT 模型，解鎖其開發全鏈路；
2026-01-08：快速跟進硬件迭代，發布適配 Blackwell GPU 架構的專用鏡像；
2026-01-15：NaVILA 導航算法、SimpleVLA-RL 合入主線，推出 GRPO 輕量級后訓練方案；
2026-02-10：官宣與 RLinf 戰略合作，打造具身智能的 PyTorch，發布登頂全球的 DM0 模型；
2026-03-30：硬件生態爆發，適配 XLeRobot、接入 NVIDIA GR00T N1，并為 Pi0.5 開啟一鍵混訓功能；
2026-05-09：全面兼容 UniNaVid，將版圖強勢擴張至泛具身導航領域。

高頻的迭代帶來了極其繁榮的生態回饋。目前，Dexbotic 已經成功服務了包括清華大學、北京大學、普林斯頓大學、帝國理工學院在內的數十家頂尖高校，以及騰訊、北京具身智能機器人創新中心等頭部產業機構，累計觸達研發者超過千人。

正如 Linux 之父林納斯?托瓦茲所言：「軟件進化需要群體的智慧。」

Dexbotic 拒絕了「閉門造車」的技術路線，而是選擇將自己打造為具身智能領域的「基礎運行層」。隨著原力靈機、清華大學、無問芯穹等多方力量的持續匯聚，一個屬于具身智能的繁榮開源生態正在形成。

當「大模型 + 機器人」從實驗室的概念走向千行百業的真實場景，工程框架的協同演進能力，已經成為與模型算力同等重要的競爭維度。從解決數據格式的細枝末節，到重塑 SFT+RL 的頂層研發閉環，Dexbotic 的每一步更新，都在為通用智能機器人的到來夯實基建。

毫無疑問，具身智能的「PyTorch 時刻」已經開啟。而 Dexbotic，正致力于成為承載這一歷史進程的堅實基石。

歡迎全球研究者與開發者關注、Star，并共同參與 Dexbotic 社區建設，探索具身智能的無限可能。

項目官網：https://dexbotic.com/
GitHub 開源倉庫：https://github.com/dexmal/dexbotic
Hugging Face 模型集：https://huggingface.co/collections/Dexmal/dexbotic

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.