網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Sora時(shí)代結(jié)束，智象未來用世界模型叩開AGI大門

2026-04-09 20:09:17　來源: 智能紀(jì)元AGI

北京舉報(bào)

分享至

2023年2月，新春年味未散，剛剛卸任京東集團(tuán)副總裁的梅濤，收到一場(chǎng)特別邀約：

前往北京密云北莊·荷畔的靜謐小墅，與中國科學(xué)技術(shù)大學(xué)的校友們組織的一場(chǎng)“科大校友ChatGPT論壇”中進(jìn)行分享新一輪AI熱潮。

而到場(chǎng)嘉賓還包括梅濤在中科大的師弟——后來成為諾亦騰機(jī)器人創(chuàng)始人兼首席執(zhí)行官的戴若犁。

雪夜沉沉，山路蜿蜒，梅濤親自駕車，一路穿行于盤山道間，最終抵達(dá)北莊·荷畔。

不到19分鐘的時(shí)間，梅濤便向校友們闡述了多模態(tài)AI大模型的發(fā)展趨勢(shì)。

當(dāng)時(shí)，國內(nèi)正沉浸在美國OpenAI公司研發(fā)的大語言模型聊天機(jī)器人ChatGPT帶來的震驚與熱潮中，但長(zhǎng)期深耕視覺AI領(lǐng)域的梅濤卻有著與行業(yè)主流截然不同的判斷。

梅濤是國內(nèi)極少擁有ACM Fellow、IEEE Fellow，加拿大工程院外籍院士三重國際頂級(jí)學(xué)術(shù)頭銜的人工智能學(xué)者，他既是長(zhǎng)期深耕計(jì)算機(jī)視覺的科學(xué)家，也經(jīng)歷過微軟與京東兩家大型科技公司的產(chǎn)業(yè)化歷練。

在他看來，基于物理與數(shù)字世界融合的生成式AI多模態(tài)大模型，比ChatGPT更具挑戰(zhàn)性，也具有更大的創(chuàng)業(yè)機(jī)遇，且彼時(shí)頭部企業(yè)尚未建立起明顯的技術(shù)壁壘優(yōu)勢(shì)。

這也成為梅濤創(chuàng)立智象未來（HiDream.ai）的起點(diǎn)。

盡管當(dāng)時(shí)不少人并不理解，智象未來為何選擇布局多模態(tài)大模型AI賽道，但一年后問世的Sora、Google Genie，以及今年推出的字節(jié)跳動(dòng)Seedance 2.0等模型帶來是酷炫視覺奇觀，已讓大眾真切感受到多模態(tài)基礎(chǔ)模型帶來的巨大影響力。

而隨著技術(shù)進(jìn)一步演進(jìn)，行業(yè)焦點(diǎn)又開始從“視頻生成”向更宏大的目標(biāo)轉(zhuǎn)移——世界模型（World Model）演進(jìn)。如今，Sora時(shí)代已悄然落幕。在統(tǒng)一架構(gòu)、數(shù)據(jù)體系與算力支撐下，通用世界模型今年將迎來快速突破。

很顯然，AI視頻生成賽道正瞄準(zhǔn)新的方向——世界模型。

從圖靈獎(jiǎng)得主楊立昆(Yann LeCun)到“AI教母”李飛飛；從字節(jié)、阿里等大廠，到智象未來等行業(yè)獨(dú)角獸，紛紛布局世界模型賽道，結(jié)合具身智能與物理AI，加速邁向通用人工智能（AGI）。

其中，智象未來近期宣布與戴若犁的諾亦騰機(jī)器人（Noitom Robotics）達(dá)成戰(zhàn)略合作，雙方將在高質(zhì)量、規(guī)模化具身智能視頻數(shù)據(jù)的生成上展開深度合作，從而開啟拓寬具身智能行業(yè)數(shù)據(jù)入口的全新模式探索。

經(jīng)過了智象未來三年的創(chuàng)業(yè)探索，在梅濤看來，視頻生成不僅是一項(xiàng)多模態(tài)大模型的應(yīng)用能力，更可能是進(jìn)入世界模型時(shí)代的關(guān)鍵入口。

一場(chǎng)更具想象空間的百萬億世界模型新賽道已然開啟。

新的“輪回”與趨勢(shì)

2024年圣誕節(jié)期間，一部在美國上映的電影中展示：未來某日，具有了“自我意識(shí)”的AI派出兩個(gè)聊天機(jī)器人穿越到過去，試圖摧毀“人類反抗軍”的首領(lǐng)。

這似曾相識(shí)的《終結(jié)者2：審判日》劇情，在時(shí)隔數(shù)十年后，正式被AI技術(shù)重制——全球首部由AI生成的長(zhǎng)篇電影《Our T2 Remake》由50位AIGC創(chuàng)作者歷時(shí)數(shù)月分段合作完成，全片達(dá)到了近90分鐘。

盡管這部電影的畫面制作還存在不少瑕疵，甚至不被老一代電影人真正接納，但它展示了AI對(duì)自然語言學(xué)習(xí)和理解的超高天賦，同時(shí)也是繼OpenAI發(fā)布“世界模擬器”Sora之后的震撼AI視頻生成行業(yè)的重要事件。

正如馬斯克直言，AI的發(fā)展太快了，未來兩年內(nèi)將實(shí)現(xiàn)擁有人類一般自主發(fā)現(xiàn)和執(zhí)行任能力的通用人工智能（AGI）。

今年1月，北京智源人工智能研究院發(fā)布年度報(bào)告《2026十大AI技術(shù)趨勢(shì)》。報(bào)告指出，AI的演進(jìn)核心正發(fā)生關(guān)鍵轉(zhuǎn)移，正從追求參數(shù)規(guī)模的語言模型，邁向?qū)ξ锢硎澜绲讓又刃虻纳羁汤斫馀c建模的多模態(tài)世界模型。因此，世界模型成為AGI共識(shí)方向，“預(yù)測(cè)世界下一狀態(tài)”（Next-State Prediction）或成新的產(chǎn)業(yè)范式，從而推動(dòng)AI從感知走向真正的認(rèn)知與規(guī)劃。

過去的一年多時(shí)間，AI技術(shù)發(fā)生了“輪回”，視頻生成等多模態(tài)AI技術(shù)正成為進(jìn)入世界模型時(shí)代的關(guān)鍵基礎(chǔ)之一。

所謂世界模型，是指能夠理解物理規(guī)律、空間屬性等真實(shí)世界動(dòng)態(tài)的神經(jīng)網(wǎng)絡(luò)。它可融合文本、圖像、視頻、動(dòng)作等多模態(tài)信息，生成高度逼真的物理環(huán)境模擬影像；并讓AI智能體在執(zhí)行動(dòng)作前，于內(nèi)部世界中“預(yù)演未來”，通過視覺感知、記憶、行動(dòng)控制等環(huán)節(jié)形成接近人類水平的智能。

有業(yè)內(nèi)人士直言，2026年或是世界模型為AGI奠定基礎(chǔ)的元年。

正如斯坦福大學(xué)教授李飛飛所述，大語言模型的基本單元是詞庫，而世界模型的基本單元是像素或體素。

而英偉達(dá)機(jī)器人主管Jim Fan曾發(fā)文稱，2026年將成為大世界模型真正為機(jī)器人以及更廣義的多模態(tài)AI奠定基礎(chǔ)的第一年。

至于世界模型定義的分類，智象未來聯(lián)合創(chuàng)始人兼CTO姚霆提出了三種：

第一類是以語言模型為主，屬于高層知識(shí)的提煉和壓縮；

第二類是Yann LeCun做的JEPA，偏中層的表達(dá)學(xué)習(xí)；

第三類是底層的像素生成，也就是視頻生成——包括在視頻生成模型中融入因果關(guān)系和物理規(guī)律，根據(jù)用戶指令實(shí)時(shí)生成場(chǎng)景（如Genie-3），以及跟具身智能強(qiáng)相關(guān)的World Action Model。

早在2023年3月，梅濤帶領(lǐng)姚霆等從微軟、京東一路深耕圖像識(shí)別研究的核心技術(shù)團(tuán)隊(duì)，創(chuàng)立了智象未來。不到半年，智象未來上線參數(shù)超60億的多模態(tài)大模型。

2024年2月，初代Sora模型發(fā)布之前，智象未來就實(shí)現(xiàn)了全球首個(gè)15秒視頻生成技術(shù)突破，自研多模態(tài)大模型參數(shù)達(dá)數(shù)百億。而在過去三年，智象未來已實(shí)現(xiàn)了多模態(tài)AI生成產(chǎn)品和商業(yè)化的驅(qū)動(dòng)能力。

如今，世界模型的發(fā)展還需要在具身智能、人形機(jī)器人等物理AI領(lǐng)域展開探索，而視頻生成能夠?yàn)槲锢鞟I提供更多仿真到真實(shí)世界（Sim-to-Real）數(shù)據(jù)，進(jìn)而對(duì)具身世界模型智能體（WMA）的行為決策產(chǎn)生影響。

今年3月舉行的英偉達(dá)GTC大會(huì)上，黃仁勛提出：AI正經(jīng)歷感知、生成式、Agent階段，未來將是以具身機(jī)器人為代表的物理AI時(shí)代。

如果說，生成式AI解決的是“理解與生成信息”的問題，那么物理AI所要面對(duì)的，則是一個(gè)更復(fù)雜的命題：理解世界，并在其中行動(dòng)。

具身智能的數(shù)據(jù)瓶頸

實(shí)際上，具身智能作為 AI 落地物理世界的核心賽道，正遭遇前所未有的數(shù)據(jù)瓶頸。

首先，無論是人形機(jī)器人的靈巧操作、服務(wù)機(jī)器人的場(chǎng)景適配，還是工業(yè)機(jī)器人的精準(zhǔn)作業(yè)，其核心能力的落地都依賴于大規(guī)模、高質(zhì)量、場(chǎng)景化、多模態(tài)的數(shù)據(jù)，包括三維空間信息、傳感器數(shù)據(jù)與運(yùn)動(dòng)軌跡等。然而，現(xiàn)有數(shù)據(jù)資源數(shù)量有限、模態(tài)單一、質(zhì)量參差不齊，難以支撐模型復(fù)雜的感知與行為學(xué)習(xí)需求。

而且，真實(shí)數(shù)據(jù)采集成本與模型視覺泛化能力之間存在矛盾：標(biāo)準(zhǔn)化環(huán)境雖能降本增效，但要提升模型的泛化能力，就必須覆蓋更多樣、更復(fù)雜的真實(shí)場(chǎng)景。

業(yè)內(nèi)普遍認(rèn)為，當(dāng)前具身智能領(lǐng)域正處于2.0階段，可用訓(xùn)練數(shù)據(jù)僅約20萬–30萬小時(shí)。參照GPT-3數(shù)據(jù)量為GPT-2的100倍這一規(guī)律，若具身智能從當(dāng)前階段（類比GPT-2階段）邁向更高階階段（類比GPT-3階段），所需數(shù)據(jù)量將達(dá)到1000萬–2000萬小時(shí)。

其次，現(xiàn)有開源數(shù)據(jù)集規(guī)模有限且缺乏統(tǒng)一的采集與標(biāo)注規(guī)范，且多為單一模態(tài)數(shù)據(jù)，限制了模型的跨任務(wù)、跨場(chǎng)景泛化能力。同時(shí)，國內(nèi)不同機(jī)構(gòu)與企業(yè)間數(shù)據(jù)封閉，缺乏有效的共享機(jī)制，進(jìn)一步阻礙了規(guī)模化、標(biāo)準(zhǔn)化數(shù)據(jù)體系的建立。

最后，高精度多模態(tài)采集設(shè)備會(huì)干擾視覺信息，形成視覺鴻溝（Vision Gap），后期修復(fù)效果有限，難以滿足模型訓(xùn)練要求。當(dāng)前具身智能的核心瓶頸已從算力與模型轉(zhuǎn)向真實(shí)數(shù)據(jù)嚴(yán)重不足，行業(yè)可用訓(xùn)練數(shù)據(jù)僅幾十萬小時(shí)，與智能涌現(xiàn)所需的千萬至億小時(shí)規(guī)模相差一個(gè)數(shù)量級(jí)以上。

數(shù)據(jù)的“質(zhì)”與“量”雙重缺失，讓行業(yè)陷入“高質(zhì)量數(shù)據(jù)不開源、開源數(shù)據(jù)不能用”的“無米之炊”困境。

今年3月在深圳舉行的全球首屆具身智能開發(fā)者大會(huì)上，多位行業(yè)人士表示，當(dāng)前用于機(jī)器人訓(xùn)練的具身智能數(shù)據(jù)不僅需求巨大，獲取成本也極高，而行業(yè)往往忽視了模型廠商在數(shù)據(jù)采集與訓(xùn)練上的巨額投入。

上述人士認(rèn)為，今年具身機(jī)器人領(lǐng)域有望通過視頻生成模型、海量合成數(shù)據(jù)、開源數(shù)據(jù)等方式，將物理AI模型收斂到“一條非常確定的技術(shù)路線”對(duì)應(yīng)的數(shù)據(jù)集上進(jìn)行探索，這將是行業(yè)發(fā)展的重要趨勢(shì)。

事實(shí)上，具身智能的基礎(chǔ)研究主要圍繞“感知—交互—規(guī)劃—仿真—訓(xùn)練—加速”體系展開。

而此次智象未來與諾亦騰的戰(zhàn)略合作，正是將多模態(tài)大模型的毫米級(jí)可控視頻生成能力與真實(shí)數(shù)據(jù)基礎(chǔ)設(shè)施相結(jié)合，融合真實(shí)數(shù)據(jù)與生成式視頻數(shù)據(jù)，預(yù)計(jì)年內(nèi)合作生成的具身智能視頻數(shù)據(jù)將達(dá)數(shù)萬小時(shí)，從而開辟出可規(guī)模化供應(yīng)行業(yè)亟需的高質(zhì)量具身訓(xùn)練數(shù)據(jù)的全新路徑。

作為多模態(tài)AI領(lǐng)域的領(lǐng)軍者，智象未來自主研發(fā)的“智象多模態(tài)大模型”是超百億級(jí)別的大模型，擁有行業(yè)內(nèi)豐富的多模態(tài)版權(quán)語料庫，具備強(qiáng)大的視覺內(nèi)容生成與理解能力，其技術(shù)已在視頻創(chuàng)作工具vivago、AI影視制作、營(yíng)銷場(chǎng)景應(yīng)用及更多智能體應(yīng)用中實(shí)現(xiàn)落地。

2025年4月，智象未來自主研發(fā)的開源模型HiDream-I1與HiDream-E1.1雙雙躋身全球第一梯隊(duì)，并在圖像質(zhì)量、語義理解、藝術(shù)表現(xiàn)三大維度刷新行業(yè)紀(jì)錄。同時(shí)，基于智象未來技術(shù)的AIGC短劇《亦幻未來》《量子湖傳說》實(shí)現(xiàn)影視工業(yè)化落地，電商解決方案覆蓋全球超100個(gè)國家和地區(qū)；ARR（年度經(jīng)常性收入）達(dá)到數(shù)千萬美元量級(jí)，B輪融資正處于最后收尾階段，持續(xù)獲得產(chǎn)業(yè)資本加持。

對(duì)于成立三年的智象未來團(tuán)隊(duì)而言，在行業(yè)趨勢(shì)迭代、AI商業(yè)化逐漸“收斂”、軟硬件不斷深度耦合的背景下，視頻生成是通往世界模型的數(shù)據(jù)入口，這也將成為這家全球領(lǐng)先的多模態(tài)生成式 AI 創(chuàng)新企業(yè)叩響AGI大門、實(shí)現(xiàn)新技術(shù)躍遷的千載難逢的機(jī)遇，更是打通具身智能發(fā)展核心“數(shù)據(jù)瓶頸”、推動(dòng)通用人形機(jī)器人落地的重要路徑。

“人生就在于不斷折騰。”梅濤在10個(gè)月前的一次采訪中坦言，人生的不同階段，總要勇敢踏入新領(lǐng)域、敢于嘗試與冒險(xiǎn)，始終堅(jiān)持做難而正確的事；要付出99%的努力，去攀登金字塔尖那1%的高度，這也是他從事創(chuàng)新事業(yè)一以貫之的準(zhǔn)則。

資本押注百萬億級(jí)世界模型

展望未來，世界模型將成為一個(gè)百萬億規(guī)模的全新AI賽道。

作為支撐物理AI自主決策的核心體系，世界模型是通往通用人工智能的關(guān)鍵路徑，其市場(chǎng)覆蓋范圍廣泛，涵蓋機(jī)器人、自動(dòng)駕駛、工業(yè)仿真、數(shù)字孿生等多個(gè)核心領(lǐng)域。

據(jù)麥肯錫預(yù)測(cè)，2030年世界模型相關(guān)市場(chǎng)規(guī)模將突破3萬億美元。

英偉達(dá)副總裁雷夫·勒巴雷迪安（Rev Lebaredian）更是大膽預(yù)測(cè)，若機(jī)器能實(shí)現(xiàn)對(duì)物理世界的理解與自主運(yùn)行，世界模型相關(guān)市場(chǎng)規(guī)模或?qū)⑦_(dá)到約100萬億美元，足見其巨大的發(fā)展?jié)摿Α?/p>

資本的嗅覺往往先于行業(yè)爆發(fā)，全球范圍內(nèi)，世界模型領(lǐng)域已成為投資熱點(diǎn)。

今年2月，李飛飛創(chuàng)立的世界模型企業(yè)World Labs（空間智能）完成10億美元融資，最新估值超50億美元；緊隨其后，楊立昆的世界模型初創(chuàng)公司AMI也完成逾10億美元融資。

國際巨頭與頂尖科學(xué)家的入局，進(jìn)一步印證了世界模型賽道的核心價(jià)值。

國內(nèi)市場(chǎng)同樣熱度高漲，公開信息顯示，2026年開年不到三個(gè)月，國內(nèi)具身智能領(lǐng)域已披露的融資總額就超過200億元，估值超百億的企業(yè)擴(kuò)容至近10家，而這些企業(yè)大多聚焦于世界模型、具身模型、大腦交互等核心方向。充分證明了世界模型、物理AI等相關(guān)領(lǐng)域在國內(nèi)的廣闊發(fā)展前景。

值得注意的是，智象未來與諾亦騰的戰(zhàn)略合作所實(shí)現(xiàn)的數(shù)據(jù)范式創(chuàng)新，正是世界模型與通用型具身智能爆發(fā)的關(guān)鍵基石——當(dāng)高質(zhì)量訓(xùn)練數(shù)據(jù)的瓶頸被打破，具身智能的潛力將得到徹底釋放，進(jìn)而推動(dòng)AI真正走進(jìn)物理世界，為百萬億級(jí)市場(chǎng)的開啟奠定基礎(chǔ)。

當(dāng)下，智象未來已在技術(shù)產(chǎn)品與商業(yè)化布局上積累了充足實(shí)力，也擁有充足的“彈藥”，其在此時(shí)切入世界模型賽道恰逢其時(shí)，也為整個(gè)多模態(tài)AI行業(yè)提供了極具參考價(jià)值的發(fā)展樣本。

梅濤曾明確提出，AI商業(yè)化有兩個(gè)關(guān)鍵里程碑：一是產(chǎn)品日活用戶（DAU）突破100萬，標(biāo)志著企業(yè)跨越重要發(fā)展鴻溝；二是年經(jīng)常性收入（ARR）達(dá)到1億美元，意味著公司形成成熟商業(yè)模式、進(jìn)入穩(wěn)定發(fā)展階段。

在巨頭扎堆、競(jìng)爭(zhēng)白熱化的AI賽道中，智象未來作為一家純技術(shù)導(dǎo)向的創(chuàng)業(yè)公司，沒有走“堆資源、盲目跟風(fēng)”的捷徑，而是憑借扎實(shí)的底層架構(gòu)創(chuàng)新站穩(wěn)腳跟，深耕視頻生成領(lǐng)域，全面構(gòu)建“技術(shù)+商業(yè)”雙飛輪，實(shí)現(xiàn)了技術(shù)突破與商業(yè)化落地的同步推進(jìn)。

下一步，智象未來將緊扣世界模型的發(fā)展趨勢(shì)，提前卡位布局，聯(lián)合諾亦騰機(jī)器人率先完成真實(shí)場(chǎng)景的規(guī)模化部署，構(gòu)建核心先發(fā)優(yōu)勢(shì)，或?qū)⒊蔀槭澜缒Ｐ团cAGI領(lǐng)域的領(lǐng)軍企業(yè)，在百萬億級(jí)賽道中搶占發(fā)展先機(jī)。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.