![]()
2023年2月,新春年味未散,剛剛卸任京東集團(tuán)副總裁的梅濤,收到一場(chǎng)特別邀約:
前往北京密云北莊·荷畔的靜謐小墅,與中國科學(xué)技術(shù)大學(xué)的校友們組織的一場(chǎng)“科大校友ChatGPT論壇”中進(jìn)行分享新一輪AI熱潮。
而到場(chǎng)嘉賓還包括梅濤在中科大的師弟——后來成為諾亦騰機(jī)器人創(chuàng)始人兼首席執(zhí)行官的戴若犁。
雪夜沉沉,山路蜿蜒,梅濤親自駕車,一路穿行于盤山道間,最終抵達(dá)北莊·荷畔。
不到19分鐘的時(shí)間,梅濤便向校友們闡述了多模態(tài)AI大模型的發(fā)展趨勢(shì)。
當(dāng)時(shí),國內(nèi)正沉浸在美國OpenAI公司研發(fā)的大語言模型聊天機(jī)器人ChatGPT帶來的震驚與熱潮中,但長(zhǎng)期深耕視覺AI領(lǐng)域的梅濤卻有著與行業(yè)主流截然不同的判斷。
梅濤是國內(nèi)極少擁有ACM Fellow、IEEE Fellow,加拿大工程院外籍院士三重國際頂級(jí)學(xué)術(shù)頭銜的人工智能學(xué)者,他既是長(zhǎng)期深耕計(jì)算機(jī)視覺的科學(xué)家,也經(jīng)歷過微軟與京東兩家大型科技公司的產(chǎn)業(yè)化歷練。
![]()
在他看來,基于物理與數(shù)字世界融合的生成式AI多模態(tài)大模型,比ChatGPT更具挑戰(zhàn)性,也具有更大的創(chuàng)業(yè)機(jī)遇,且彼時(shí)頭部企業(yè)尚未建立起明顯的技術(shù)壁壘優(yōu)勢(shì)。
這也成為梅濤創(chuàng)立智象未來(HiDream.ai)的起點(diǎn)。
盡管當(dāng)時(shí)不少人并不理解,智象未來為何選擇布局多模態(tài)大模型AI賽道,但一年后問世的Sora、Google Genie,以及今年推出的字節(jié)跳動(dòng)Seedance 2.0等模型帶來是酷炫視覺奇觀,已讓大眾真切感受到多模態(tài)基礎(chǔ)模型帶來的巨大影響力。
而隨著技術(shù)進(jìn)一步演進(jìn),行業(yè)焦點(diǎn)又開始從“視頻生成”向更宏大的目標(biāo)轉(zhuǎn)移——世界模型(World Model)演進(jìn)。如今,Sora時(shí)代已悄然落幕。在統(tǒng)一架構(gòu)、數(shù)據(jù)體系與算力支撐下,通用世界模型今年將迎來快速突破。
很顯然,AI視頻生成賽道正瞄準(zhǔn)新的方向——世界模型。
從圖靈獎(jiǎng)得主楊立昆(Yann LeCun)到“AI教母”李飛飛;從字節(jié)、阿里等大廠,到智象未來等行業(yè)獨(dú)角獸,紛紛布局世界模型賽道,結(jié)合具身智能與物理AI,加速邁向通用人工智能(AGI)。
其中,智象未來近期宣布與戴若犁的諾亦騰機(jī)器人(Noitom Robotics)達(dá)成戰(zhàn)略合作,雙方將在高質(zhì)量、規(guī)模化具身智能視頻數(shù)據(jù)的生成上展開深度合作,從而開啟拓寬具身智能行業(yè)數(shù)據(jù)入口的全新模式探索。
經(jīng)過了智象未來三年的創(chuàng)業(yè)探索,在梅濤看來,視頻生成不僅是一項(xiàng)多模態(tài)大模型的應(yīng)用能力,更可能是進(jìn)入世界模型時(shí)代的關(guān)鍵入口。
一場(chǎng)更具想象空間的百萬億世界模型新賽道已然開啟。
新的“輪回”與趨勢(shì)
2024年圣誕節(jié)期間,一部在美國上映的電影中展示:未來某日,具有了“自我意識(shí)”的AI派出兩個(gè)聊天機(jī)器人穿越到過去,試圖摧毀“人類反抗軍”的首領(lǐng)。
![]()
這似曾相識(shí)的《終結(jié)者2:審判日》劇情,在時(shí)隔數(shù)十年后,正式被AI技術(shù)重制——全球首部由AI生成的長(zhǎng)篇電影《Our T2 Remake》由50位AIGC創(chuàng)作者歷時(shí)數(shù)月分段合作完成,全片達(dá)到了近90分鐘。
盡管這部電影的畫面制作還存在不少瑕疵,甚至不被老一代電影人真正接納,但它展示了AI對(duì)自然語言學(xué)習(xí)和理解的超高天賦,同時(shí)也是繼OpenAI發(fā)布“世界模擬器”Sora之后的震撼AI視頻生成行業(yè)的重要事件。
正如馬斯克直言,AI的發(fā)展太快了,未來兩年內(nèi)將實(shí)現(xiàn)擁有人類一般自主發(fā)現(xiàn)和執(zhí)行任能力的通用人工智能(AGI)。
今年1月,北京智源人工智能研究院發(fā)布年度報(bào)告《2026十大AI技術(shù)趨勢(shì)》。報(bào)告指出,AI的演進(jìn)核心正發(fā)生關(guān)鍵轉(zhuǎn)移,正從追求參數(shù)規(guī)模的語言模型,邁向?qū)ξ锢硎澜绲讓又刃虻纳羁汤斫馀c建模的多模態(tài)世界模型。因此,世界模型成為AGI共識(shí)方向,“預(yù)測(cè)世界下一狀態(tài)”(Next-State Prediction)或成新的產(chǎn)業(yè)范式,從而推動(dòng)AI從感知走向真正的認(rèn)知與規(guī)劃。
過去的一年多時(shí)間,AI技術(shù)發(fā)生了“輪回”,視頻生成等多模態(tài)AI技術(shù)正成為進(jìn)入世界模型時(shí)代的關(guān)鍵基礎(chǔ)之一。
所謂世界模型,是指能夠理解物理規(guī)律、空間屬性等真實(shí)世界動(dòng)態(tài)的神經(jīng)網(wǎng)絡(luò)。它可融合文本、圖像、視頻、動(dòng)作等多模態(tài)信息,生成高度逼真的物理環(huán)境模擬影像;并讓AI智能體在執(zhí)行動(dòng)作前,于內(nèi)部世界中“預(yù)演未來”,通過視覺感知、記憶、行動(dòng)控制等環(huán)節(jié)形成接近人類水平的智能。
![]()
有業(yè)內(nèi)人士直言,2026年或是世界模型為AGI奠定基礎(chǔ)的元年。
正如斯坦福大學(xué)教授李飛飛所述,大語言模型的基本單元是詞庫,而世界模型的基本單元是像素或體素。
而英偉達(dá)機(jī)器人主管Jim Fan曾發(fā)文稱,2026年將成為大世界模型真正為機(jī)器人以及更廣義的多模態(tài)AI奠定基礎(chǔ)的第一年。
至于世界模型定義的分類,智象未來聯(lián)合創(chuàng)始人兼CTO姚霆提出了三種:
第一類是以語言模型為主,屬于高層知識(shí)的提煉和壓縮;
第二類是Yann LeCun做的JEPA,偏中層的表達(dá)學(xué)習(xí);
第三類是底層的像素生成,也就是視頻生成——包括在視頻生成模型中融入因果關(guān)系和物理規(guī)律,根據(jù)用戶指令實(shí)時(shí)生成場(chǎng)景(如Genie-3),以及跟具身智能強(qiáng)相關(guān)的World Action Model。
早在2023年3月,梅濤帶領(lǐng)姚霆等從微軟、京東一路深耕圖像識(shí)別研究的核心技術(shù)團(tuán)隊(duì),創(chuàng)立了智象未來。不到半年,智象未來上線參數(shù)超60億的多模態(tài)大模型。
2024年2月,初代Sora模型發(fā)布之前,智象未來就實(shí)現(xiàn)了全球首個(gè)15秒視頻生成技術(shù)突破,自研多模態(tài)大模型參數(shù)達(dá)數(shù)百億。而在過去三年,智象未來已實(shí)現(xiàn)了多模態(tài)AI生成產(chǎn)品和商業(yè)化的驅(qū)動(dòng)能力。
如今,世界模型的發(fā)展還需要在具身智能、人形機(jī)器人等物理AI領(lǐng)域展開探索,而視頻生成能夠?yàn)槲锢鞟I提供更多仿真到真實(shí)世界(Sim-to-Real)數(shù)據(jù),進(jìn)而對(duì)具身世界模型智能體(WMA)的行為決策產(chǎn)生影響。
今年3月舉行的英偉達(dá)GTC大會(huì)上,黃仁勛提出:AI正經(jīng)歷感知、生成式、Agent階段,未來將是以具身機(jī)器人為代表的物理AI時(shí)代。
如果說,生成式AI解決的是“理解與生成信息”的問題,那么物理AI所要面對(duì)的,則是一個(gè)更復(fù)雜的命題:理解世界,并在其中行動(dòng)。
具身智能的數(shù)據(jù)瓶頸
實(shí)際上,具身智能作為 AI 落地物理世界的核心賽道,正遭遇前所未有的數(shù)據(jù)瓶頸。
![]()
首先,無論是人形機(jī)器人的靈巧操作、服務(wù)機(jī)器人的場(chǎng)景適配,還是工業(yè)機(jī)器人的精準(zhǔn)作業(yè),其核心能力的落地都依賴于大規(guī)模、高質(zhì)量、場(chǎng)景化、多模態(tài)的數(shù)據(jù),包括三維空間信息、傳感器數(shù)據(jù)與運(yùn)動(dòng)軌跡等。然而,現(xiàn)有數(shù)據(jù)資源數(shù)量有限、模態(tài)單一、質(zhì)量參差不齊,難以支撐模型復(fù)雜的感知與行為學(xué)習(xí)需求。
而且,真實(shí)數(shù)據(jù)采集成本與模型視覺泛化能力之間存在矛盾:標(biāo)準(zhǔn)化環(huán)境雖能降本增效,但要提升模型的泛化能力,就必須覆蓋更多樣、更復(fù)雜的真實(shí)場(chǎng)景。
業(yè)內(nèi)普遍認(rèn)為,當(dāng)前具身智能領(lǐng)域正處于2.0階段,可用訓(xùn)練數(shù)據(jù)僅約20萬–30萬小時(shí)。參照GPT-3數(shù)據(jù)量為GPT-2的100倍這一規(guī)律,若具身智能從當(dāng)前階段(類比GPT-2階段)邁向更高階階段(類比GPT-3階段),所需數(shù)據(jù)量將達(dá)到1000萬–2000萬小時(shí)。
其次,現(xiàn)有開源數(shù)據(jù)集規(guī)模有限且缺乏統(tǒng)一的采集與標(biāo)注規(guī)范,且多為單一模態(tài)數(shù)據(jù),限制了模型的跨任務(wù)、跨場(chǎng)景泛化能力。同時(shí),國內(nèi)不同機(jī)構(gòu)與企業(yè)間數(shù)據(jù)封閉,缺乏有效的共享機(jī)制,進(jìn)一步阻礙了規(guī)模化、標(biāo)準(zhǔn)化數(shù)據(jù)體系的建立。
最后,高精度多模態(tài)采集設(shè)備會(huì)干擾視覺信息,形成視覺鴻溝(Vision Gap),后期修復(fù)效果有限,難以滿足模型訓(xùn)練要求。當(dāng)前具身智能的核心瓶頸已從算力與模型轉(zhuǎn)向真實(shí)數(shù)據(jù)嚴(yán)重不足,行業(yè)可用訓(xùn)練數(shù)據(jù)僅幾十萬小時(shí),與智能涌現(xiàn)所需的千萬至億小時(shí)規(guī)模相差一個(gè)數(shù)量級(jí)以上。
數(shù)據(jù)的“質(zhì)”與“量”雙重缺失,讓行業(yè)陷入“高質(zhì)量數(shù)據(jù)不開源、開源數(shù)據(jù)不能用”的“無米之炊”困境。
今年3月在深圳舉行的全球首屆具身智能開發(fā)者大會(huì)上,多位行業(yè)人士表示,當(dāng)前用于機(jī)器人訓(xùn)練的具身智能數(shù)據(jù)不僅需求巨大,獲取成本也極高,而行業(yè)往往忽視了模型廠商在數(shù)據(jù)采集與訓(xùn)練上的巨額投入。
上述人士認(rèn)為,今年具身機(jī)器人領(lǐng)域有望通過視頻生成模型、海量合成數(shù)據(jù)、開源數(shù)據(jù)等方式,將物理AI模型收斂到“一條非常確定的技術(shù)路線”對(duì)應(yīng)的數(shù)據(jù)集上進(jìn)行探索,這將是行業(yè)發(fā)展的重要趨勢(shì)。
事實(shí)上,具身智能的基礎(chǔ)研究主要圍繞“感知—交互—規(guī)劃—仿真—訓(xùn)練—加速”體系展開。
而此次智象未來與諾亦騰的戰(zhàn)略合作,正是將多模態(tài)大模型的毫米級(jí)可控視頻生成能力與真實(shí)數(shù)據(jù)基礎(chǔ)設(shè)施相結(jié)合,融合真實(shí)數(shù)據(jù)與生成式視頻數(shù)據(jù),預(yù)計(jì)年內(nèi)合作生成的具身智能視頻數(shù)據(jù)將達(dá)數(shù)萬小時(shí),從而開辟出可規(guī)模化供應(yīng)行業(yè)亟需的高質(zhì)量具身訓(xùn)練數(shù)據(jù)的全新路徑。
作為多模態(tài)AI領(lǐng)域的領(lǐng)軍者,智象未來自主研發(fā)的“智象多模態(tài)大模型”是超百億級(jí)別的大模型,擁有行業(yè)內(nèi)豐富的多模態(tài)版權(quán)語料庫,具備強(qiáng)大的視覺內(nèi)容生成與理解能力,其技術(shù)已在視頻創(chuàng)作工具vivago、AI影視制作、營(yíng)銷場(chǎng)景應(yīng)用及更多智能體應(yīng)用中實(shí)現(xiàn)落地。
2025年4月,智象未來自主研發(fā)的開源模型HiDream-I1與HiDream-E1.1雙雙躋身全球第一梯隊(duì),并在圖像質(zhì)量、語義理解、藝術(shù)表現(xiàn)三大維度刷新行業(yè)紀(jì)錄。同時(shí),基于智象未來技術(shù)的AIGC短劇《亦幻未來》《量子湖傳說》實(shí)現(xiàn)影視工業(yè)化落地,電商解決方案覆蓋全球超100個(gè)國家和地區(qū);ARR(年度經(jīng)常性收入)達(dá)到數(shù)千萬美元量級(jí),B輪融資正處于最后收尾階段,持續(xù)獲得產(chǎn)業(yè)資本加持。
對(duì)于成立三年的智象未來團(tuán)隊(duì)而言,在行業(yè)趨勢(shì)迭代、AI商業(yè)化逐漸“收斂”、軟硬件不斷深度耦合的背景下,視頻生成是通往世界模型的數(shù)據(jù)入口,這也將成為這家全球領(lǐng)先的多模態(tài)生成式 AI 創(chuàng)新企業(yè)叩響AGI大門、實(shí)現(xiàn)新技術(shù)躍遷的千載難逢的機(jī)遇,更是打通具身智能發(fā)展核心“數(shù)據(jù)瓶頸”、推動(dòng)通用人形機(jī)器人落地的重要路徑。
“人生就在于不斷折騰。”梅濤在10個(gè)月前的一次采訪中坦言,人生的不同階段,總要勇敢踏入新領(lǐng)域、敢于嘗試與冒險(xiǎn),始終堅(jiān)持做難而正確的事;要付出99%的努力,去攀登金字塔尖那1%的高度,這也是他從事創(chuàng)新事業(yè)一以貫之的準(zhǔn)則。
資本押注百萬億級(jí)世界模型
展望未來,世界模型將成為一個(gè)百萬億規(guī)模的全新AI賽道。
作為支撐物理AI自主決策的核心體系,世界模型是通往通用人工智能的關(guān)鍵路徑,其市場(chǎng)覆蓋范圍廣泛,涵蓋機(jī)器人、自動(dòng)駕駛、工業(yè)仿真、數(shù)字孿生等多個(gè)核心領(lǐng)域。
據(jù)麥肯錫預(yù)測(cè),2030年世界模型相關(guān)市場(chǎng)規(guī)模將突破3萬億美元。
英偉達(dá)副總裁雷夫·勒巴雷迪安(Rev Lebaredian)更是大膽預(yù)測(cè),若機(jī)器能實(shí)現(xiàn)對(duì)物理世界的理解與自主運(yùn)行,世界模型相關(guān)市場(chǎng)規(guī)模或?qū)⑦_(dá)到約100萬億美元,足見其巨大的發(fā)展?jié)摿Α?/p>
資本的嗅覺往往先于行業(yè)爆發(fā),全球范圍內(nèi),世界模型領(lǐng)域已成為投資熱點(diǎn)。
今年2月,李飛飛創(chuàng)立的世界模型企業(yè)World Labs(空間智能)完成10億美元融資,最新估值超50億美元;緊隨其后,楊立昆的世界模型初創(chuàng)公司AMI也完成逾10億美元融資。
國際巨頭與頂尖科學(xué)家的入局,進(jìn)一步印證了世界模型賽道的核心價(jià)值。
國內(nèi)市場(chǎng)同樣熱度高漲,公開信息顯示,2026年開年不到三個(gè)月,國內(nèi)具身智能領(lǐng)域已披露的融資總額就超過200億元,估值超百億的企業(yè)擴(kuò)容至近10家,而這些企業(yè)大多聚焦于世界模型、具身模型、大腦交互等核心方向。充分證明了世界模型、物理AI等相關(guān)領(lǐng)域在國內(nèi)的廣闊發(fā)展前景。
值得注意的是,智象未來與諾亦騰的戰(zhàn)略合作所實(shí)現(xiàn)的數(shù)據(jù)范式創(chuàng)新,正是世界模型與通用型具身智能爆發(fā)的關(guān)鍵基石——當(dāng)高質(zhì)量訓(xùn)練數(shù)據(jù)的瓶頸被打破,具身智能的潛力將得到徹底釋放,進(jìn)而推動(dòng)AI真正走進(jìn)物理世界,為百萬億級(jí)市場(chǎng)的開啟奠定基礎(chǔ)。
當(dāng)下,智象未來已在技術(shù)產(chǎn)品與商業(yè)化布局上積累了充足實(shí)力,也擁有充足的“彈藥”,其在此時(shí)切入世界模型賽道恰逢其時(shí),也為整個(gè)多模態(tài)AI行業(yè)提供了極具參考價(jià)值的發(fā)展樣本。
梅濤曾明確提出,AI商業(yè)化有兩個(gè)關(guān)鍵里程碑:一是產(chǎn)品日活用戶(DAU)突破100萬,標(biāo)志著企業(yè)跨越重要發(fā)展鴻溝;二是年經(jīng)常性收入(ARR)達(dá)到1億美元,意味著公司形成成熟商業(yè)模式、進(jìn)入穩(wěn)定發(fā)展階段。
在巨頭扎堆、競(jìng)爭(zhēng)白熱化的AI賽道中,智象未來作為一家純技術(shù)導(dǎo)向的創(chuàng)業(yè)公司,沒有走“堆資源、盲目跟風(fēng)”的捷徑,而是憑借扎實(shí)的底層架構(gòu)創(chuàng)新站穩(wěn)腳跟,深耕視頻生成領(lǐng)域,全面構(gòu)建“技術(shù)+商業(yè)”雙飛輪,實(shí)現(xiàn)了技術(shù)突破與商業(yè)化落地的同步推進(jìn)。
下一步,智象未來將緊扣世界模型的發(fā)展趨勢(shì),提前卡位布局,聯(lián)合諾亦騰機(jī)器人率先完成真實(shí)場(chǎng)景的規(guī)模化部署,構(gòu)建核心先發(fā)優(yōu)勢(shì),或?qū)⒊蔀槭澜缒P团cAGI領(lǐng)域的領(lǐng)軍企業(yè),在百萬億級(jí)賽道中搶占發(fā)展先機(jī)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.