網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

開(kāi)源持續(xù)學(xué)習(xí)算法，機(jī)器人微調(diào)成本驟降60%

2026-04-26 04:20:39　來(lái)源: 她不傾國(guó)傾城

四川舉報(bào)

分享至

這會(huì)是具身智能的 OpenClaw 時(shí)刻嗎？

4 月，特斯拉宣布了一系列關(guān)于其人形機(jī)器人 Optimus（擎天柱）的重大技術(shù)開(kāi)放舉措，引發(fā)行業(yè)巨震。首批披露的包括 Optimus 手部專利、硬件結(jié)構(gòu)細(xì)節(jié)，馬斯克希望通過(guò)開(kāi)源來(lái)加速技術(shù)普適性，定義具身智能硬件入場(chǎng)規(guī)則。

剛剛，面對(duì)硅谷巨頭的出招，在具身智能這個(gè)前沿賽道上，國(guó)內(nèi)團(tuán)隊(duì)來(lái)了一波回應(yīng)：你開(kāi)源鋼鐵軀殼，我開(kāi)源靈魂「大腦」！

全球首個(gè)一站式、開(kāi)箱即用的具身智能模型開(kāi)源社區(qū) AlphaBrain Platform 正式上線，一桌具身智能技術(shù)的「頂配全家桶」史無(wú)前例地端到了全行業(yè)的面前。

這是一套打通「數(shù)據(jù)→訓(xùn)練→架構(gòu)→測(cè)試」全鏈路的完整技術(shù)棧，其中包含當(dāng)前最前沿的技術(shù)（世界模型、類腦模型）、最自由組合能力（跨范式即插即用能力）、最公平評(píng)估標(biāo)準(zhǔn)（統(tǒng)一的 Benchmark）以及最廣泛的開(kāi)發(fā)社群。

這些原本只存在于頂尖實(shí)驗(yàn)室的能力全部開(kāi)放了，現(xiàn)在任你取用。你可以在其上獲得全球范圍內(nèi)最強(qiáng)的模型，針對(duì)自身任務(wù)測(cè)試調(diào)用，再通過(guò)整套工具鏈完成場(chǎng)景落地。

具身智能，從來(lái)沒(méi)這么簡(jiǎn)單過(guò)。

推動(dòng)這一社區(qū)的，是國(guó)內(nèi)具身智能創(chuàng)業(yè)公司智平方（AI2 Robotics）。

技術(shù)路線集齊

重塑開(kāi)源標(biāo)準(zhǔn)

智平方推出的具身全家桶集齊了當(dāng)前領(lǐng)域內(nèi)最火的技術(shù)路線，包括但不限于世界模型、類腦模型、RL Token。在這其中，我們也看到了一些不同之處：他們面對(duì)當(dāng)前具身智能量產(chǎn)落地的挑戰(zhàn)，提出了獨(dú)特的解法。

具體來(lái)說(shuō)，AlphaBrain Platform 上的技術(shù)包含五大亮點(diǎn)：

邁向生物腦：全球首個(gè)開(kāi)源類腦 VLA 模型（NeuroVLA）

作為首個(gè)在類腦控制任務(wù)中展現(xiàn)出卓越效能的開(kāi)源類腦 VLA 模型，它不僅刷新了類腦具身性能紀(jì)錄，更開(kāi)啟了具身智能向生物腦學(xué)習(xí)機(jī)制進(jìn)化的新篇章

傳統(tǒng)的機(jī)器人動(dòng)作輸出往往依賴連續(xù)值，而NeuroVLA 創(chuàng)新地引入了脈沖神經(jīng)網(wǎng)絡(luò)（SNN）動(dòng)作頭，用脈沖編碼模擬了生物神經(jīng)元的脈沖放電機(jī)制。NeuroVLA 擁有「在線自適應(yīng)」能力，在部署階段不需要通過(guò)反向傳播來(lái)更新參數(shù)，只需要依賴環(huán)境交互的自監(jiān)督獎(jiǎng)勵(lì)信號(hào)即可實(shí)時(shí)更新權(quán)重，實(shí)現(xiàn)了任務(wù)過(guò)程中的在線持續(xù)適應(yīng)。

配合 GRU-FiLM 動(dòng)作精修模塊，該系統(tǒng)能基于機(jī)器人本體狀態(tài)對(duì) SNN 輸出進(jìn)行條件性修正，極大提升了機(jī)器人動(dòng)作的最終精度。

告別「災(zāi)難性遺忘」：首個(gè)面向跨架構(gòu) VLA 的開(kāi)源持續(xù)學(xué)習(xí)算法

大模型在學(xué)習(xí)新技能時(shí)極易產(chǎn)生「災(zāi)難性遺忘」—— 學(xué)了新動(dòng)作忘了老技能，且微調(diào)成本極高。智平方通過(guò)這套算法，突破了架構(gòu)兼容性的瓶頸。

通過(guò)集成 LoRA 參數(shù)的高效微調(diào)（僅訓(xùn)練 VLM 骨干網(wǎng) 6% 的參數(shù)），智平方讓模型的訓(xùn)練顯存占用降低了 60%。而經(jīng)驗(yàn)回放（Experience Replay）系統(tǒng)維護(hù)了一個(gè)可配置的任務(wù)級(jí)回放緩沖區(qū)，在學(xué)習(xí)新任務(wù)時(shí)會(huì)自動(dòng)回放舊任務(wù)樣本，有效實(shí)現(xiàn)了知識(shí)的累積遷移。所有的持續(xù)學(xué)習(xí)改動(dòng)均為「增量式設(shè)計(jì)」，不修改基座代碼，且與具體 VLA 框架解耦。

該算法目前已在 QwenGR00T、LLamaOFT 等多種架構(gòu)上驗(yàn)證了兼容性，真正做到跨架構(gòu)通用。

低成本泛化：首個(gè)基于 RL Token 的全新 VLA 訓(xùn)練架構(gòu)

強(qiáng)化學(xué)習(xí)（RL）是賦予機(jī)器人在復(fù)雜場(chǎng)景下泛化能力的關(guān)鍵，但高昂的試錯(cuò)與計(jì)算成本常令人卻步。作為真正的低成本場(chǎng)景化利器，這套新范式率先開(kāi)源了 RL-Token 技術(shù)，并在在公開(kāi)基準(zhǔn) LIBERO 上完成了驗(yàn)證。僅需極少量人類專家演示即可完成高質(zhì)量訓(xùn)練。

新的訓(xùn)練架構(gòu)通過(guò)編碼器將 VLA 龐大的隱藏狀態(tài)極度壓縮至低維瓶頸空間，強(qiáng)迫模型剔除冗余，提取出最關(guān)鍵的決策信息。值得一提的是，本社區(qū)實(shí)現(xiàn)了兩階段訓(xùn)練方式，在 RL 微調(diào)的第二階段，VLA 主體參數(shù)被「完全凍結(jié)」，系統(tǒng)僅訓(xùn)練輕量級(jí)的 RL 模塊。這一招既避免了災(zāi)難性遺忘，又大幅壓低了計(jì)算成本（僅為原來(lái)的 3.5%）。在訓(xùn)練時(shí)，該架構(gòu)又引入了 50% 概率丟棄 VLA 參考動(dòng)作的 Dropout 機(jī)制，防止 Actor 模塊退化，增強(qiáng)了機(jī)器人的自主探索能力。

「可插拔」的世界模型架構(gòu)（WA）

「世界模型」是目前行業(yè)最火的探索方向，它能提供一個(gè)虛擬化環(huán)境，讓機(jī)器人在行動(dòng)前就能預(yù)演未來(lái)，做出更優(yōu)決策。智平方提出的可插拔的世界模型架構(gòu)原生集成了 NVIDIA Cosmos Policy 的原始預(yù)訓(xùn)練權(quán)重，支持在業(yè)界最頂尖的三大世界模型（Meta 的 V-JEPA、英偉達(dá) Cosmos Predict 以及阿里的 Wan）上靈活自定義切換。

全面適配最新具身 Benchmark

為了驗(yàn)證上述所有能力，智平方為整套體系適配了最新具身 Benchmark，涵蓋 LIBERO（四大任務(wù)套件）、LIBERO-plus、RoboCasa 以及 RoboCasa365 等業(yè)界最權(quán)威的評(píng)測(cè)基準(zhǔn)。

開(kāi)發(fā)者能夠?qū)δＰ驮陂L(zhǎng)時(shí)序下的推理與記憶能力進(jìn)行嚴(yán)苛驗(yàn)證。AlphaBrain Platform 平臺(tái)提供了統(tǒng)一的評(píng)估入口，可自動(dòng)完成從推理服務(wù)啟動(dòng)到服務(wù)關(guān)閉的全流程。配合 WebSocket 推理服務(wù)與 BF16 加速，甚至支持遠(yuǎn)程部署與跨機(jī)器評(píng)估，并原生支持 VLA+VLM 聯(lián)合訓(xùn)練，全面提升評(píng)估效率。

讓開(kāi)發(fā)者站在巨人的肩膀上

作為前沿研究方向，過(guò)去兩年具身智能領(lǐng)域涌現(xiàn)出了大量開(kāi)源模型。但一個(gè)尷尬的現(xiàn)實(shí)是：開(kāi)源的模型很多，真正「好用」的很少。開(kāi)發(fā)者還要面對(duì)各種問(wèn)題：這個(gè)模型怎么跑起來(lái)？哪個(gè)模型更好用？我想做的創(chuàng)新能不能落地到真實(shí)場(chǎng)景？

AlphaBrain Platform 不止開(kāi)源了模型，也包含讓模型能跑起來(lái)、比得清、能落地的全鏈路能力。能夠方便人們進(jìn)行復(fù)現(xiàn)、對(duì)比及場(chǎng)景化落地。

此前，硅谷明星企業(yè) Physical Intelligence 推出的基礎(chǔ)模型 Pi 曾是開(kāi)源的典范，但它仍處于單模型開(kāi)源階段 —— 而 AlphaBrain Platform 則是直接交付了一整座高度定制化的「兵工廠」，接入的是最強(qiáng)的設(shè)備零件，輸出的是即開(kāi)即用的具身能力，讓開(kāi)發(fā)者們可以把精力聚焦于機(jī)器人本體的調(diào)優(yōu)與場(chǎng)景落地上。

AlphaBrain Platform 發(fā)布后，以往具身智能開(kāi)發(fā)中令人頭疼的繁雜環(huán)境配置、接口對(duì)齊和架構(gòu)適配等底層「雜活」被徹底打包解決，高階的定制化開(kāi)發(fā)變成了觸手可得的能力，前沿技術(shù)的發(fā)展或許將由此導(dǎo)向一條全新道路。

在該平臺(tái)之上，開(kāi)發(fā)者只需幾行簡(jiǎn)單的配置就能實(shí)現(xiàn)跨架構(gòu)、跨范式的自由組合，快速驗(yàn)證創(chuàng)新的研發(fā)想法，硬件需求也很低（甚至在消費(fèi)級(jí)顯卡上也能運(yùn)行）。通過(guò)支持低成本微調(diào)，開(kāi)發(fā)者可以迅速讓模型適配自己的機(jī)器人硬件，大幅縮短從研發(fā)到落地的時(shí)間。

在能夠接入多家先進(jìn)模型的前提下，AlphaBrain Platform 統(tǒng)一了評(píng)估標(biāo)準(zhǔn)，建立了標(biāo)準(zhǔn)評(píng)測(cè)體系，讓人們可以嘗試和選擇最適合自身任務(wù)的工具。

此次開(kāi)源最大的貢獻(xiàn)在于打破實(shí)驗(yàn)室圍墻，讓原本只存在于英偉達(dá)、Meta 等全球頂尖實(shí)驗(yàn)室的能力（如類腦 VLA 模型、可插拔世界模型、跨架構(gòu)持續(xù)學(xué)習(xí)等）全面開(kāi)放，任由社區(qū)取用。

隨著更多的開(kāi)發(fā)者加入進(jìn)來(lái)，前沿技術(shù)的復(fù)用與創(chuàng)新，將極大推動(dòng)機(jī)器人行業(yè)從重復(fù)造輪子轉(zhuǎn)向更深層次的技術(shù)突破。

這或許就是「頂配全家桶」的意義。

不止于開(kāi)源大腦

「最像特斯拉」的中國(guó)具身智能獨(dú)角獸

有趣的是，打破這層技術(shù)窗戶紙的智平方，在業(yè)內(nèi)被評(píng)價(jià)為「最像特斯拉」的機(jī)器人公司。

早在 2024 年，智平方發(fā)布了創(chuàng)業(yè)公司中首個(gè) VLA 模型，在模型規(guī)模僅為谷歌同類模型 1/20 的情況下，性能提升超過(guò) 80%；2025 年，智平方推出了快慢系統(tǒng)深度融合的新一代架構(gòu)，在第三方評(píng)測(cè)中超越國(guó)際標(biāo)桿模型 Pi0 達(dá) 30%。這些成果已全部融入 AlphaBrain 的迭代體系中，使其始終站在行業(yè)最前沿。

快慢系統(tǒng)深度融合的新一代架構(gòu)。

當(dāng)行業(yè)近期開(kāi)始熱議「世界模型」時(shí)，智平方在 2023 年下半年便率先提出：世界模型不應(yīng)是 VLA 的外接模塊，而應(yīng)深度內(nèi)生于模型之中。基于這一前瞻認(rèn)知，AlphaBrain 在 2025 年 11 月吸納了新一代架構(gòu) Video2Act 的最新成果 —— 實(shí)現(xiàn)「先預(yù)測(cè)、后執(zhí)行」。

在第三方評(píng)測(cè)中，相較于硅谷同類標(biāo)桿模型，AlphaBrain 取得了超過(guò) 30% 的性能領(lǐng)先，證明了環(huán)境理解與動(dòng)作執(zhí)行一體化路線的顯著優(yōu)勢(shì)。

傳統(tǒng) VLA 模型「訓(xùn)練完成即固定」，無(wú)法在部署后繼續(xù)學(xué)習(xí)。智平方再次引領(lǐng)突破 —— 他們開(kāi)源了全球首個(gè)類腦 VLA 模型（NeuroVLA），并將其融入 AlphaBrain。NeuroVLA 引入脈沖神經(jīng)網(wǎng)絡(luò)動(dòng)作頭與 R-STDP 訓(xùn)練算法，支持部署階段的在線自適應(yīng)，讓機(jī)器人具備類似「肌肉記憶」的能力。這意味著機(jī)器人第一次從「執(zhí)行指令的工具」轉(zhuǎn)變?yōu)椤冈谌蝿?wù)中不斷進(jìn)化的主體」：只是完成任務(wù)，而是在過(guò)程中變得更熟練、更穩(wěn)定，接近人類的學(xué)習(xí)方式。

智平方也構(gòu)建了完整的硬件量產(chǎn)與商業(yè)落地能力。

智平方堅(jiān)持面向量產(chǎn)的硬件設(shè)計(jì)，其最新一代 AlphaBot 2 機(jī)器人核心部件無(wú)故障運(yùn)行壽命可達(dá) 5 萬(wàn)小時(shí)。依托自建產(chǎn)線，智平方在 2025 年已具備千臺(tái)級(jí)年產(chǎn)能，并在年底實(shí)現(xiàn)了單月百臺(tái)級(jí)的真實(shí)交付。

在落地上，智平方率先跑通了數(shù)據(jù) × 商業(yè)雙閉環(huán)，其產(chǎn)品在半導(dǎo)體顯示制造、汽車制造、公共服務(wù)等大量真實(shí)場(chǎng)景持續(xù)運(yùn)行。他們獲得了全球第三大面板廠商惠科的 1000 臺(tái)訂單，被摩根士坦利認(rèn)定為該領(lǐng)域全球最大單一訂單。同時(shí)，在新零售賽道，其推出的全球首個(gè)模塊化具身智能服務(wù)空間「智魔方」，已在多地實(shí)現(xiàn)日均 10 小時(shí)以上的常態(tài)化、零失誤自主運(yùn)營(yíng)。

從開(kāi)源大腦到堅(jiān)實(shí)的商業(yè)閉環(huán)，智平方的行動(dòng)，正在定義著具身智能作為下一代先進(jìn)生產(chǎn)力的未來(lái)。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.