網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小米陳龍團(tuán)隊(duì)首作：統(tǒng)一具身與自動(dòng)駕駛的開(kāi)源模型

2025-11-22 20:24:44　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

MiMo-Embodied 證實(shí)核心感知與推理能力可在多場(chǎng)景間共享。

作者丨鄭佳美

編輯丨馬曉寧

在發(fā)布多款自研大模型之后，小米又交出了一份重要成果。

小米具身智能團(tuán)隊(duì)正式發(fā)布了首篇論文，提出統(tǒng)一具身智能與自動(dòng)駕駛的新模型MiMo-Embodied。模型在 17 項(xiàng)具身任務(wù)和 12 項(xiàng)自動(dòng)駕駛?cè)蝿?wù)中取得領(lǐng)先表現(xiàn)，更重要的是，它從工程層面展示了這兩個(gè)長(zhǎng)期分離的技術(shù)領(lǐng)域可以在同一框架下實(shí)現(xiàn)統(tǒng)一建模。

小米智駕團(tuán)隊(duì)的郝孝帥是論文的核心第一作者，小米智駕團(tuán)隊(duì)首席科學(xué)家陳龍博士擔(dān)任project leader。

該模型是陳龍團(tuán)隊(duì)的首個(gè)重大成果。由于以羅福莉團(tuán)隊(duì)之前發(fā)布的MiMo-VL作為基座進(jìn)行了continue-train，這也是文章作者欄中有“羅福莉”的原因。此前有媒體曾誤解為羅福莉首個(gè)小米成果，也引發(fā)了當(dāng)事人發(fā)朋友圈澄清事實(shí)。

這篇論文關(guān)注的核心問(wèn)題是：同一套視覺(jué)語(yǔ)言模型，能否在面對(duì)“抓取物體”與“駕駛車輛”這兩類差異極大的任務(wù)時(shí)，仍保持一致的理解方式和決策邏輯。

這一問(wèn)題長(zhǎng)期困擾多場(chǎng)景智能體的研究，而 MiMo-Embodied 正是小米對(duì)這一方向給出的首次系統(tǒng)回應(yīng)。

多任務(wù)統(tǒng)領(lǐng)式領(lǐng)先

這篇論文中主要圍繞兩個(gè)主要方向進(jìn)行了系統(tǒng)實(shí)驗(yàn)：具身智能與自動(dòng)駕駛。

整體結(jié)果非常突出，可以用一句話概括：MiMo-Embodied 在 17 個(gè)具身智能任務(wù)和 12 個(gè)自動(dòng)駕駛?cè)蝿?wù)中，都取得了全面領(lǐng)先的表現(xiàn)，在多數(shù)關(guān)鍵基準(zhǔn)上都處于第一。

在具身智能方面，實(shí)驗(yàn)評(píng)測(cè)涵蓋可供性推斷、任務(wù)規(guī)劃和空間理解三個(gè)能力。

其實(shí)可供性推斷的測(cè)試主要評(píng)估模型是否能夠正確理解物體的使用方式。例如識(shí)別物體上可操作的部位、精確指出指定位置、判斷場(chǎng)景中哪些區(qū)域可以放置物品，或在多個(gè)相似物體中找到與描述相符的那一個(gè)。

在這類任務(wù)中，MiMo-Embodied 在五個(gè)主流基準(zhǔn)上均表現(xiàn)突出。在 RoboRefIt 中，它可以從一組高度相似的物體中準(zhǔn)確定位目標(biāo)；在 Part-Afford 中，它能夠識(shí)別物體的可操作部件；在 VABench-Point 中，它能根據(jù)文字描述精確給出坐標(biāo)，整體表現(xiàn)達(dá)到當(dāng)前最優(yōu)水平。

任務(wù)規(guī)劃方面的測(cè)試關(guān)注模型根據(jù)情境推斷下一步行動(dòng)的能力。例如根據(jù)視頻判斷任務(wù)的后續(xù)步驟、依據(jù)目標(biāo)從多個(gè)候選動(dòng)作中選擇正確的操作，或根據(jù)已有步驟推斷接下來(lái)可能發(fā)生的事件。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基準(zhǔn)中均處于領(lǐng)先位置，說(shuō)明其在行動(dòng)推理與任務(wù)結(jié)構(gòu)理解方面具有較強(qiáng)的綜合能力。

空間理解相關(guān)任務(wù)要求模型對(duì)場(chǎng)景中的空間關(guān)系有準(zhǔn)確把握，包括判斷物體之間的相對(duì)方位、在圖像中定位對(duì)象、輸出精確坐標(biāo)，或回答涉及空間推理的文字問(wèn)題。

在九個(gè)代表性測(cè)試中，MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 與 CRPE-relation 等核心基準(zhǔn)上取得最高分，在 EmbSpatial 與 SAT 等任務(wù)中也保持在第一梯隊(duì)，體現(xiàn)出扎實(shí)的空間推理能力。

在自動(dòng)駕駛方面，實(shí)驗(yàn)同樣覆蓋三個(gè)核心模塊：場(chǎng)景感知、行為預(yù)測(cè)和駕駛規(guī)劃。

場(chǎng)景感知的測(cè)試要求模型看清路上的車輛、行人和交通標(biāo)志，描述場(chǎng)景內(nèi)容，識(shí)別潛在風(fēng)險(xiǎn)，并輸出關(guān)鍵目標(biāo)的位置。MiMo-Embodied 在 CODA-LM 等復(fù)雜場(chǎng)景理解任務(wù)中表現(xiàn)與專用模型相當(dāng)甚至更好，在 DRAMA 中對(duì)關(guān)鍵物體的定位精度最高，在 OmniDrive 與 MME-RealWorld 中也保持領(lǐng)先。

行為預(yù)測(cè)要求模型能夠推測(cè)其他交通參與者可能采取的動(dòng)作，例如車輛是否會(huì)變道、是否會(huì)讓行，或從多視角畫(huà)面中理解整體交通流動(dòng)趨勢(shì)。MiMo-Embodied 在 MME-RealWorld 與 DriveLM 等基準(zhǔn)中表現(xiàn)穩(wěn)定且領(lǐng)先，顯示出對(duì)動(dòng)態(tài)交通場(chǎng)景的良好理解能力。

而駕駛規(guī)劃則要求模型給出車輛應(yīng)當(dāng)采取的動(dòng)作，并解釋其決策依據(jù)，同時(shí)保證遵守交通規(guī)則、避免風(fēng)險(xiǎn)。MiMo-Embodied 在多個(gè)核心基準(zhǔn)上取得領(lǐng)先，包括在 LingoQA 中準(zhǔn)確解釋駕駛行為，在 DriveLM 中從多視角場(chǎng)景推導(dǎo)合理規(guī)劃，在 MAPLM 中理解道路結(jié)構(gòu)參與決策，在 BDD-X 中清晰說(shuō)明駕駛理由，整體表現(xiàn)甚至超過(guò)一些專門為自動(dòng)駕駛設(shè)計(jì)的模型。

從單域到跨域的四階段訓(xùn)練框架

實(shí)驗(yàn)結(jié)果之外，團(tuán)隊(duì)還構(gòu)建了一套由四個(gè)階段組成的訓(xùn)練流程，使模型的能力從最初的具身理解，逐步拓展至自動(dòng)駕駛決策，并進(jìn)一步發(fā)展出可解釋的推理能力與更高的輸出精度。

值得注意的是，這四個(gè)階段均以羅福莉所屬的 Xiaomi LLM-Core（大語(yǔ)言核心團(tuán)隊(duì)）推出的MiMo-VL作為統(tǒng)一的基礎(chǔ)模型展開(kāi)。整個(gè)訓(xùn)練體系以能力逐級(jí)遞進(jìn)為結(jié)構(gòu)，每個(gè)階段都為下一階段奠定能力基礎(chǔ)，從而形成一套連續(xù)且可擴(kuò)展的模型演進(jìn)路徑。

在第一階段中，模型主要接受具身智能相關(guān)的監(jiān)督訓(xùn)練，訓(xùn)練數(shù)據(jù)覆蓋可供性推斷、任務(wù)規(guī)劃和空間理解等任務(wù)。

這些數(shù)據(jù)讓模型能夠先掌握如何看懂物體的結(jié)構(gòu)、識(shí)別可操作部位、理解場(chǎng)景中的空間關(guān)系，并能對(duì)一段任務(wù)過(guò)程進(jìn)行正確的下一步推斷。經(jīng)過(guò)這一階段，模型具備了基本的空間推理能力、初步的任務(wù)規(guī)劃能力，以及對(duì)可供性的感知與表達(dá)能力。

第二階段專門引入自動(dòng)駕駛領(lǐng)域的監(jiān)督訓(xùn)練。模型開(kāi)始學(xué)習(xí)處理復(fù)雜的交通場(chǎng)景，訓(xùn)練數(shù)據(jù)包括多視角相機(jī)畫(huà)面、駕駛視頻、自動(dòng)駕駛問(wèn)答、關(guān)鍵目標(biāo)的坐標(biāo)標(biāo)注以及與道路結(jié)構(gòu)相關(guān)的知識(shí)。

通過(guò)這些訓(xùn)練，模型能夠理解道路環(huán)境、讀取交通元素、預(yù)測(cè)其他交通參與者的行為，并給出符合規(guī)則的駕駛規(guī)劃。此階段使模型掌握動(dòng)態(tài)場(chǎng)景分析、意圖預(yù)測(cè)以及駕駛決策等關(guān)鍵自動(dòng)駕駛能力。

第三階段加入鏈?zhǔn)剿季S訓(xùn)練，也就是讓模型學(xué)習(xí)“把推理過(guò)程說(shuō)出來(lái)”。訓(xùn)練數(shù)據(jù)含有明確的推理步驟，模型在此階段被引導(dǎo)按照“觀察場(chǎng)景→分析要素→提出候選→給出理由→得出結(jié)論”的順序組織回答。

結(jié)果是模型開(kāi)始能夠自洽地解釋自己的判斷邏輯，不論是在具身任務(wù)還是在駕駛?cè)蝿?wù)中，都能給出清晰、可讀的推理鏈條，顯著提升輸出的透明度與一致性。

最后在第四階段進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)，目的在于進(jìn)一步提升模型在細(xì)節(jié)層面的準(zhǔn)確度。例如，多選題會(huì)根據(jù)是否答對(duì)給予獎(jiǎng)勵(lì)；定位類任務(wù)通過(guò)預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的 IoU 分?jǐn)?shù)提供更精細(xì)的反饋；推理回答的形式會(huì)通過(guò)格式模板進(jìn)行嚴(yán)格約束。

通過(guò)這些規(guī)則化的獎(jiǎng)勵(lì)機(jī)制，模型在坐標(biāo)定位精度、推理質(zhì)量及細(xì)節(jié)判斷能力上都有明顯增強(qiáng)，最終成為一個(gè)在多任務(wù)場(chǎng)景中都能穩(wěn)定發(fā)揮的統(tǒng)一具身模型。

打通兩個(gè)世界的第一步

這項(xiàng)工作的價(jià)值不只在于模型性能領(lǐng)先，而在于它解決了長(zhǎng)期困擾業(yè)界的一道核心難題：機(jī)器人和自動(dòng)駕駛本應(yīng)屬于兩個(gè)完全不同的世界，卻第一次被放進(jìn)了同一個(gè)大腦里。

過(guò)去的模型要么專門做室內(nèi)具身任務(wù)，要么專門做自動(dòng)駕駛，兩個(gè)方向無(wú)論是場(chǎng)景、感知還是動(dòng)作都完全割裂，彼此幾乎沒(méi)有可共享的能力。

但 MiMo-Embodied 的實(shí)驗(yàn)結(jié)果證明，底層的關(guān)鍵智能能力，空間理解、因果推理、動(dòng)態(tài)場(chǎng)景分析，其實(shí)可以跨域遷移。機(jī)器人理解桌面物體的方式，可以幫助汽車?yán)斫饴房冢黄囂幚斫煌▌?dòng)態(tài)的能力，也能讓機(jī)器人更好地規(guī)劃任務(wù)步驟。

這意味著“智能體”的邊界第一次被打通。

除此之外，為了驗(yàn)證這種跨場(chǎng)景融合是否真正可行，團(tuán)隊(duì)還專門構(gòu)建了一個(gè)前所未有的大規(guī)模評(píng)測(cè)體系：17 個(gè)具身智能基準(zhǔn)加上 12 個(gè)自動(dòng)駕駛基準(zhǔn)，覆蓋可供性、規(guī)劃、空間理解，以及感知、預(yù)測(cè)、駕駛決策等多維能力。

模型在如此復(fù)雜而全面的體系下依舊保持穩(wěn)定領(lǐng)先，證明它不是“弱項(xiàng)補(bǔ)短”，而是實(shí)實(shí)在在具備跨領(lǐng)域的泛化智能。這不僅驗(yàn)證了模型本身，也相當(dāng)于是替整個(gè)行業(yè)點(diǎn)亮了“跨域評(píng)測(cè)”的新標(biāo)準(zhǔn)。

更重要的是，MiMo-Embodied 提供了一種可復(fù)制的范式。論文提出的四階段訓(xùn)練路線：先學(xué)具身，再學(xué)駕駛，再疊加鏈?zhǔn)酵评恚詈笥脧?qiáng)化學(xué)習(xí)摳細(xì)節(jié)，實(shí)際上就是一條通向“通用具身智能體”的訓(xùn)練路徑。

它告訴行業(yè)：智能體能力并不必須分散在不同的模型中，而可以像課程一樣逐層積累，讓統(tǒng)一模型在多種復(fù)雜場(chǎng)景中都保持穩(wěn)定表現(xiàn)。

而從產(chǎn)業(yè)角度看，這更像一次“開(kāi)鎖”的動(dòng)作。小米把跨域智能的這把鑰匙直接扔給了開(kāi)源社區(qū)，意味著未來(lái)即便是小團(tuán)隊(duì)，也能在這套基礎(chǔ)上做改造，做出既能開(kāi)車又能操作機(jī)械臂的多場(chǎng)景智能體。

電動(dòng)車越來(lái)越像“帶輪子的智能體”，機(jī)器人越來(lái)越像“帶四肢的智能體”，而 MiMo-Embodied 的出現(xiàn)，讓這兩條原本平行的技術(shù)路線第一次有機(jī)會(huì)匯流。

更難得的是，這不是一個(gè)性能堪堪夠用的概念模型，而是在 17 個(gè)具身測(cè)試 + 12 個(gè)自動(dòng)駕駛測(cè)試?yán)锒寄艽颉⑦€能贏的大模型，連不少閉源私有模型都被它壓了一頭。

這一工作所展示的，早已不只是一種新的模型形態(tài)，而是向行業(yè)明確證明：自動(dòng)駕駛與具身智能的能力可以在同一個(gè)體系中進(jìn)行訓(xùn)練、評(píng)測(cè)和集成部署。這種統(tǒng)一方式為未來(lái)智能體的發(fā)展打開(kāi)了新的方向，可能會(huì)重新塑造多場(chǎng)景智能系統(tǒng)的整體格局。

首篇論文背后的團(tuán)隊(duì)陣容

這是小米具身智能團(tuán)隊(duì)發(fā)布的首篇論文，由小米智駕團(tuán)隊(duì)的郝孝帥擔(dān)任第一作者，項(xiàng)目負(fù)責(zé)人則是小米智駕團(tuán)隊(duì)首席科學(xué)家陳龍。

郝孝帥今年 8 月加入小米智駕團(tuán)隊(duì)。博士畢業(yè)于中國(guó)科學(xué)院大學(xué)信息工程研究所，現(xiàn)任小米汽車自動(dòng)駕駛與具身智能算法專家，研究方向?yàn)樽詣?dòng)駕駛感知和具身智能基座大模型。

在博士期間，他曾在亞馬遜實(shí)習(xí)，師從李沐老師。在北京人工智能研究院擔(dān)任研究員期間，深度參與了 Robobrain 1.0 和 Robobrain 2.0 等重大項(xiàng)目。結(jié)合github等公開(kāi)信息，自從今年8月加入小米以來(lái)，MiMo-Embodied是郝孝帥首次以第一核心成員身份做出的重要貢獻(xiàn)，也是首個(gè)自動(dòng)駕駛與具身智能統(tǒng)一基座大模型。

除此之外，郝孝帥還曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等頂級(jí)會(huì)議與期刊上發(fā)表論文五十余篇，并在 CVPR、ICCV 等國(guó)際競(jìng)賽中取得了多次前三的成績(jī)，科研背景十分扎實(shí)。

項(xiàng)目負(fù)責(zé)人陳龍博士同樣在今年加入小米，擔(dān)任小米汽車 Principal Scientist，自動(dòng)駕駛與機(jī)器人部 VLA 負(fù)責(zé)人，他曾任職于端到端自動(dòng)駕駛獨(dú)角獸公司 Wayve，擔(dān)任 Staff Scientist，帶領(lǐng)團(tuán)隊(duì)成功研發(fā)并部署了全球首個(gè)上車的視覺(jué)語(yǔ)言自動(dòng)駕駛系統(tǒng) Lingo，被 Fortune，F(xiàn)inancial Times，MIT Technology Review 等國(guó)際媒體報(bào)導(dǎo)。

此前在 Lyft 自動(dòng)駕駛部門負(fù)責(zé)基于眾包數(shù)據(jù)的深度學(xué)習(xí)規(guī)劃模型研發(fā)工作陳龍博士憑借在輔助駕駛領(lǐng)域引入視覺(jué)-語(yǔ)言-行為（VLA）模型的卓越工作，成功入選《麻省理工科技評(píng)論》2025 年度亞太區(qū)“ 35 歲以下科技創(chuàng)新 35 人”。

加入小米后，陳龍開(kāi)始帶領(lǐng)VLA 團(tuán)隊(duì)推進(jìn)端到端自動(dòng)駕駛大模型的技術(shù)路線，進(jìn)一步提升模型在復(fù)雜交通場(chǎng)景中的泛化、推理和解釋能力。他與葉航軍、陳光、王乃巖共同構(gòu)成小米智駕團(tuán)隊(duì)的核心技術(shù)力量，組成了當(dāng)前小米智駕體系的關(guān)鍵架構(gòu)班底。

作者主頁(yè)：

https://haoxiaoshuai.github.io/homepage/

https://www.linkedin.com/in/long-chen-in/

論文鏈接：

https://arxiv.org/abs/2511.16518

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.