![]()
MiMo-Embodied 證實(shí)核心感知與推理能力可在多場(chǎng)景間共享。
作者丨鄭佳美
編輯丨馬曉寧
![]()
在發(fā)布多款自研大模型之后,小米又交出了一份重要成果。
小米具身智能團(tuán)隊(duì)正式發(fā)布了首篇論文,提出統(tǒng)一具身智能與自動(dòng)駕駛的新模型MiMo-Embodied。模型在 17 項(xiàng)具身任務(wù)和 12 項(xiàng)自動(dòng)駕駛?cè)蝿?wù)中取得領(lǐng)先表現(xiàn),更重要的是,它從工程層面展示了這兩個(gè)長(zhǎng)期分離的技術(shù)領(lǐng)域可以在同一框架下實(shí)現(xiàn)統(tǒng)一建模。
小米智駕團(tuán)隊(duì)的郝孝帥是論文的核心第一作者,小米智駕團(tuán)隊(duì)首席科學(xué)家陳龍博士擔(dān)任project leader。
該模型是陳龍團(tuán)隊(duì)的首個(gè)重大成果。由于以羅福莉團(tuán)隊(duì)之前發(fā)布的MiMo-VL作為基座進(jìn)行了continue-train,這也是文章作者欄中有“羅福莉”的原因。此前有媒體曾誤解為羅福莉首個(gè)小米成果,也引發(fā)了當(dāng)事人發(fā)朋友圈澄清事實(shí)。
![]()
這篇論文關(guān)注的核心問(wèn)題是:同一套視覺(jué)語(yǔ)言模型,能否在面對(duì)“抓取物體”與“駕駛車輛”這兩類差異極大的任務(wù)時(shí),仍保持一致的理解方式和決策邏輯。
這一問(wèn)題長(zhǎng)期困擾多場(chǎng)景智能體的研究,而 MiMo-Embodied 正是小米對(duì)這一方向給出的首次系統(tǒng)回應(yīng)。
![]()
01
多任務(wù)統(tǒng)領(lǐng)式領(lǐng)先
這篇論文中主要圍繞兩個(gè)主要方向進(jìn)行了系統(tǒng)實(shí)驗(yàn):具身智能與自動(dòng)駕駛。
整體結(jié)果非常突出,可以用一句話概括:MiMo-Embodied 在 17 個(gè)具身智能任務(wù)和 12 個(gè)自動(dòng)駕駛?cè)蝿?wù)中,都取得了全面領(lǐng)先的表現(xiàn),在多數(shù)關(guān)鍵基準(zhǔn)上都處于第一。
![]()
在具身智能方面,實(shí)驗(yàn)評(píng)測(cè)涵蓋可供性推斷、任務(wù)規(guī)劃和空間理解三個(gè)能力。
其實(shí)可供性推斷的測(cè)試主要評(píng)估模型是否能夠正確理解物體的使用方式。例如識(shí)別物體上可操作的部位、精確指出指定位置、判斷場(chǎng)景中哪些區(qū)域可以放置物品,或在多個(gè)相似物體中找到與描述相符的那一個(gè)。
在這類任務(wù)中,MiMo-Embodied 在五個(gè)主流基準(zhǔn)上均表現(xiàn)突出。在 RoboRefIt 中,它可以從一組高度相似的物體中準(zhǔn)確定位目標(biāo);在 Part-Afford 中,它能夠識(shí)別物體的可操作部件;在 VABench-Point 中,它能根據(jù)文字描述精確給出坐標(biāo),整體表現(xiàn)達(dá)到當(dāng)前最優(yōu)水平。
![]()
任務(wù)規(guī)劃方面的測(cè)試關(guān)注模型根據(jù)情境推斷下一步行動(dòng)的能力。例如根據(jù)視頻判斷任務(wù)的后續(xù)步驟、依據(jù)目標(biāo)從多個(gè)候選動(dòng)作中選擇正確的操作,或根據(jù)已有步驟推斷接下來(lái)可能發(fā)生的事件。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基準(zhǔn)中均處于領(lǐng)先位置,說(shuō)明其在行動(dòng)推理與任務(wù)結(jié)構(gòu)理解方面具有較強(qiáng)的綜合能力。
![]()
空間理解相關(guān)任務(wù)要求模型對(duì)場(chǎng)景中的空間關(guān)系有準(zhǔn)確把握,包括判斷物體之間的相對(duì)方位、在圖像中定位對(duì)象、輸出精確坐標(biāo),或回答涉及空間推理的文字問(wèn)題。
在九個(gè)代表性測(cè)試中,MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 與 CRPE-relation 等核心基準(zhǔn)上取得最高分,在 EmbSpatial 與 SAT 等任務(wù)中也保持在第一梯隊(duì),體現(xiàn)出扎實(shí)的空間推理能力。
![]()
在自動(dòng)駕駛方面,實(shí)驗(yàn)同樣覆蓋三個(gè)核心模塊:場(chǎng)景感知、行為預(yù)測(cè)和駕駛規(guī)劃。
場(chǎng)景感知的測(cè)試要求模型看清路上的車輛、行人和交通標(biāo)志,描述場(chǎng)景內(nèi)容,識(shí)別潛在風(fēng)險(xiǎn),并輸出關(guān)鍵目標(biāo)的位置。MiMo-Embodied 在 CODA-LM 等復(fù)雜場(chǎng)景理解任務(wù)中表現(xiàn)與專用模型相當(dāng)甚至更好,在 DRAMA 中對(duì)關(guān)鍵物體的定位精度最高,在 OmniDrive 與 MME-RealWorld 中也保持領(lǐng)先。
![]()
行為預(yù)測(cè)要求模型能夠推測(cè)其他交通參與者可能采取的動(dòng)作,例如車輛是否會(huì)變道、是否會(huì)讓行,或從多視角畫(huà)面中理解整體交通流動(dòng)趨勢(shì)。MiMo-Embodied 在 MME-RealWorld 與 DriveLM 等基準(zhǔn)中表現(xiàn)穩(wěn)定且領(lǐng)先,顯示出對(duì)動(dòng)態(tài)交通場(chǎng)景的良好理解能力。
而駕駛規(guī)劃則要求模型給出車輛應(yīng)當(dāng)采取的動(dòng)作,并解釋其決策依據(jù),同時(shí)保證遵守交通規(guī)則、避免風(fēng)險(xiǎn)。MiMo-Embodied 在多個(gè)核心基準(zhǔn)上取得領(lǐng)先,包括在 LingoQA 中準(zhǔn)確解釋駕駛行為,在 DriveLM 中從多視角場(chǎng)景推導(dǎo)合理規(guī)劃,在 MAPLM 中理解道路結(jié)構(gòu)參與決策,在 BDD-X 中清晰說(shuō)明駕駛理由,整體表現(xiàn)甚至超過(guò)一些專門為自動(dòng)駕駛設(shè)計(jì)的模型。
![]()
02
從單域到跨域的四階段訓(xùn)練框架
實(shí)驗(yàn)結(jié)果之外,團(tuán)隊(duì)還構(gòu)建了一套由四個(gè)階段組成的訓(xùn)練流程,使模型的能力從最初的具身理解,逐步拓展至自動(dòng)駕駛決策,并進(jìn)一步發(fā)展出可解釋的推理能力與更高的輸出精度。
值得注意的是,這四個(gè)階段均以羅福莉所屬的 Xiaomi LLM-Core(大語(yǔ)言核心團(tuán)隊(duì))推出的MiMo-VL作為統(tǒng)一的基礎(chǔ)模型展開(kāi)。整個(gè)訓(xùn)練體系以能力逐級(jí)遞進(jìn)為結(jié)構(gòu),每個(gè)階段都為下一階段奠定能力基礎(chǔ),從而形成一套連續(xù)且可擴(kuò)展的模型演進(jìn)路徑。
![]()
在第一階段中,模型主要接受具身智能相關(guān)的監(jiān)督訓(xùn)練,訓(xùn)練數(shù)據(jù)覆蓋可供性推斷、任務(wù)規(guī)劃和空間理解等任務(wù)。
這些數(shù)據(jù)讓模型能夠先掌握如何看懂物體的結(jié)構(gòu)、識(shí)別可操作部位、理解場(chǎng)景中的空間關(guān)系,并能對(duì)一段任務(wù)過(guò)程進(jìn)行正確的下一步推斷。經(jīng)過(guò)這一階段,模型具備了基本的空間推理能力、初步的任務(wù)規(guī)劃能力,以及對(duì)可供性的感知與表達(dá)能力。
第二階段專門引入自動(dòng)駕駛領(lǐng)域的監(jiān)督訓(xùn)練。模型開(kāi)始學(xué)習(xí)處理復(fù)雜的交通場(chǎng)景,訓(xùn)練數(shù)據(jù)包括多視角相機(jī)畫(huà)面、駕駛視頻、自動(dòng)駕駛問(wèn)答、關(guān)鍵目標(biāo)的坐標(biāo)標(biāo)注以及與道路結(jié)構(gòu)相關(guān)的知識(shí)。
通過(guò)這些訓(xùn)練,模型能夠理解道路環(huán)境、讀取交通元素、預(yù)測(cè)其他交通參與者的行為,并給出符合規(guī)則的駕駛規(guī)劃。此階段使模型掌握動(dòng)態(tài)場(chǎng)景分析、意圖預(yù)測(cè)以及駕駛決策等關(guān)鍵自動(dòng)駕駛能力。
第三階段加入鏈?zhǔn)剿季S訓(xùn)練,也就是讓模型學(xué)習(xí)“把推理過(guò)程說(shuō)出來(lái)”。訓(xùn)練數(shù)據(jù)含有明確的推理步驟,模型在此階段被引導(dǎo)按照“觀察場(chǎng)景→分析要素→提出候選→給出理由→得出結(jié)論”的順序組織回答。
結(jié)果是模型開(kāi)始能夠自洽地解釋自己的判斷邏輯,不論是在具身任務(wù)還是在駕駛?cè)蝿?wù)中,都能給出清晰、可讀的推理鏈條,顯著提升輸出的透明度與一致性。
![]()
最后在第四階段進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),目的在于進(jìn)一步提升模型在細(xì)節(jié)層面的準(zhǔn)確度。例如,多選題會(huì)根據(jù)是否答對(duì)給予獎(jiǎng)勵(lì);定位類任務(wù)通過(guò)預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的 IoU 分?jǐn)?shù)提供更精細(xì)的反饋;推理回答的形式會(huì)通過(guò)格式模板進(jìn)行嚴(yán)格約束。
通過(guò)這些規(guī)則化的獎(jiǎng)勵(lì)機(jī)制,模型在坐標(biāo)定位精度、推理質(zhì)量及細(xì)節(jié)判斷能力上都有明顯增強(qiáng),最終成為一個(gè)在多任務(wù)場(chǎng)景中都能穩(wěn)定發(fā)揮的統(tǒng)一具身模型。
![]()
03
打通兩個(gè)世界的第一步
這項(xiàng)工作的價(jià)值不只在于模型性能領(lǐng)先,而在于它解決了長(zhǎng)期困擾業(yè)界的一道核心難題:機(jī)器人和自動(dòng)駕駛本應(yīng)屬于兩個(gè)完全不同的世界,卻第一次被放進(jìn)了同一個(gè)大腦里。
過(guò)去的模型要么專門做室內(nèi)具身任務(wù),要么專門做自動(dòng)駕駛,兩個(gè)方向無(wú)論是場(chǎng)景、感知還是動(dòng)作都完全割裂,彼此幾乎沒(méi)有可共享的能力。
但 MiMo-Embodied 的實(shí)驗(yàn)結(jié)果證明,底層的關(guān)鍵智能能力,空間理解、因果推理、動(dòng)態(tài)場(chǎng)景分析,其實(shí)可以跨域遷移。機(jī)器人理解桌面物體的方式,可以幫助汽車?yán)斫饴房冢黄囂幚斫煌▌?dòng)態(tài)的能力,也能讓機(jī)器人更好地規(guī)劃任務(wù)步驟。
這意味著“智能體”的邊界第一次被打通。
除此之外,為了驗(yàn)證這種跨場(chǎng)景融合是否真正可行,團(tuán)隊(duì)還專門構(gòu)建了一個(gè)前所未有的大規(guī)模評(píng)測(cè)體系:17 個(gè)具身智能基準(zhǔn)加上 12 個(gè)自動(dòng)駕駛基準(zhǔn),覆蓋可供性、規(guī)劃、空間理解,以及感知、預(yù)測(cè)、駕駛決策等多維能力。
模型在如此復(fù)雜而全面的體系下依舊保持穩(wěn)定領(lǐng)先,證明它不是“弱項(xiàng)補(bǔ)短”,而是實(shí)實(shí)在在具備跨領(lǐng)域的泛化智能。這不僅驗(yàn)證了模型本身,也相當(dāng)于是替整個(gè)行業(yè)點(diǎn)亮了“跨域評(píng)測(cè)”的新標(biāo)準(zhǔn)。
更重要的是,MiMo-Embodied 提供了一種可復(fù)制的范式。論文提出的四階段訓(xùn)練路線:先學(xué)具身,再學(xué)駕駛,再疊加鏈?zhǔn)酵评恚詈笥脧?qiáng)化學(xué)習(xí)摳細(xì)節(jié),實(shí)際上就是一條通向“通用具身智能體”的訓(xùn)練路徑。
它告訴行業(yè):智能體能力并不必須分散在不同的模型中,而可以像課程一樣逐層積累,讓統(tǒng)一模型在多種復(fù)雜場(chǎng)景中都保持穩(wěn)定表現(xiàn)。
而從產(chǎn)業(yè)角度看,這更像一次“開(kāi)鎖”的動(dòng)作。小米把跨域智能的這把鑰匙直接扔給了開(kāi)源社區(qū),意味著未來(lái)即便是小團(tuán)隊(duì),也能在這套基礎(chǔ)上做改造,做出既能開(kāi)車又能操作機(jī)械臂的多場(chǎng)景智能體。
電動(dòng)車越來(lái)越像“帶輪子的智能體”,機(jī)器人越來(lái)越像“帶四肢的智能體”,而 MiMo-Embodied 的出現(xiàn),讓這兩條原本平行的技術(shù)路線第一次有機(jī)會(huì)匯流。
更難得的是,這不是一個(gè)性能堪堪夠用的概念模型,而是在 17 個(gè)具身測(cè)試 + 12 個(gè)自動(dòng)駕駛測(cè)試?yán)锒寄艽颉⑦€能贏的大模型,連不少閉源私有模型都被它壓了一頭。
這一工作所展示的,早已不只是一種新的模型形態(tài),而是向行業(yè)明確證明:自動(dòng)駕駛與具身智能的能力可以在同一個(gè)體系中進(jìn)行訓(xùn)練、評(píng)測(cè)和集成部署。這種統(tǒng)一方式為未來(lái)智能體的發(fā)展打開(kāi)了新的方向,可能會(huì)重新塑造多場(chǎng)景智能系統(tǒng)的整體格局。
04
首篇論文背后的團(tuán)隊(duì)陣容
這是小米具身智能團(tuán)隊(duì)發(fā)布的首篇論文,由小米智駕團(tuán)隊(duì)的郝孝帥擔(dān)任第一作者,項(xiàng)目負(fù)責(zé)人則是小米智駕團(tuán)隊(duì)首席科學(xué)家陳龍。
![]()
郝孝帥今年 8 月加入小米智駕團(tuán)隊(duì)。博士畢業(yè)于中國(guó)科學(xué)院大學(xué)信息工程研究所,現(xiàn)任小米汽車自動(dòng)駕駛與具身智能算法專家,研究方向?yàn)樽詣?dòng)駕駛感知和具身智能基座大模型。
在博士期間,他曾在亞馬遜實(shí)習(xí),師從李沐老師。在北京人工智能研究院擔(dān)任研究員期間,深度參與了 Robobrain 1.0 和 Robobrain 2.0 等重大項(xiàng)目。結(jié)合github等公開(kāi)信息,自從今年8月加入小米以來(lái),MiMo-Embodied是郝孝帥首次以第一核心成員身份做出的重要貢獻(xiàn),也是首個(gè)自動(dòng)駕駛與具身智能統(tǒng)一基座大模型 。
除此之外,郝孝帥還曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等頂級(jí)會(huì)議與期刊上發(fā)表論文五十余篇,并在 CVPR、ICCV 等國(guó)際競(jìng)賽中取得了多次前三的成績(jī),科研背景十分扎實(shí)。
![]()
項(xiàng)目負(fù)責(zé)人陳龍博士同樣在今年加入小米,擔(dān)任小米汽車 Principal Scientist,自動(dòng)駕駛與機(jī)器人部 VLA 負(fù)責(zé)人,他曾任職于端到端自動(dòng)駕駛獨(dú)角獸公司 Wayve,擔(dān)任 Staff Scientist,帶領(lǐng)團(tuán)隊(duì)成功研發(fā)并部署了全球首個(gè)上車的視覺(jué)語(yǔ)言自動(dòng)駕駛系統(tǒng) Lingo,被 Fortune,F(xiàn)inancial Times,MIT Technology Review 等國(guó)際媒體報(bào)導(dǎo)。
此前在 Lyft 自動(dòng)駕駛部門負(fù)責(zé)基于眾包數(shù)據(jù)的深度學(xué)習(xí)規(guī)劃模型研發(fā)工作陳龍博士憑借在輔助駕駛領(lǐng)域引入視覺(jué)-語(yǔ)言-行為(VLA)模型的卓越工作,成功入選《麻省理工科技評(píng)論》2025 年度亞太區(qū)“ 35 歲以下科技創(chuàng)新 35 人”。
![]()
加入小米后,陳龍開(kāi)始帶領(lǐng)VLA 團(tuán)隊(duì)推進(jìn)端到端自動(dòng)駕駛大模型的技術(shù)路線,進(jìn)一步提升模型在復(fù)雜交通場(chǎng)景中的泛化、推理和解釋能力。他與葉航軍、陳光、王乃巖共同構(gòu)成小米智駕團(tuán)隊(duì)的核心技術(shù)力量,組成了當(dāng)前小米智駕體系的關(guān)鍵架構(gòu)班底。
![]()
作者主頁(yè):
https://haoxiaoshuai.github.io/homepage/
https://www.linkedin.com/in/long-chen-in/
論文鏈接:
https://arxiv.org/abs/2511.16518
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.