網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

最早做文生視頻的人，開始構(gòu)建世界

2026-05-17 18:32:18　來源: 虎嗅APP

北京舉報

分享至

出品｜虎嗅科技組

作者｜陳伊凡

編輯｜苗正卿

頭圖｜AI生成

“AI原生100”是虎嗅科技組推出針對AI原生創(chuàng)新欄目，這是本系列的第「54」篇文章。

“創(chuàng)業(yè)只能掙到自己認(rèn)知范圍內(nèi)的錢，認(rèn)知范圍外是一個巨大的陷阱，把我們這幫青蛙陷在井里。”

梅濤用這句話來描述創(chuàng)業(yè)公司面臨的挑戰(zhàn)和作為視頻模型生成公司智象未來創(chuàng)始人兼CEO的焦慮，不是技術(shù)不夠強(qiáng)，也不是錢不夠多，是認(rèn)知邊界。如何跳出這口井？梅濤的辦法是：自身迭代、團(tuán)隊的碰撞，朋友圈的刺激。

近日，全球知名獨(dú)立第三方AI模型評測平臺Artificial Analysis的文生圖榜單（Text to Image Leaderboard）更新，HiDream-O1-Image 開源版本躋身文生圖（Text to Image）模型榜單前列，并位列開源模型第一。Artificial Analysis是目前全球公認(rèn)最具權(quán)威性和參考價值的獨(dú)立 AI 基準(zhǔn)測評機(jī)構(gòu)之一，在業(yè)界常被譽(yù)為“AI 領(lǐng)域的 Gartner”。

Artificial Analysis的文生圖榜單

走進(jìn)智象未來合肥的辦公室，首先映入眼簾的是一面員工照片墻。所有頭像，都是AIGC生成的動漫風(fēng)格。這家公司的核心業(yè)務(wù)是圖像和視頻生成——AI時代的自己，是他們在智象未來的第一課。

智象未來合肥辦公室門口的照片墻圖片由智象未來提供

梅濤的會客廳，滿墻合影。這是梅濤的朋友圈，也是全球人工智能行業(yè)的半壁江山。隨便指向哪一張，梅濤都能說出來龍去脈——哪年在哪里，當(dāng)時聊了什么，那個人后來去了哪里。微軟的同事，京東的伙伴，投資人，行業(yè)里來來往往的導(dǎo)師、朋友和合作伙伴……照片背后的故事，他細(xì)數(shù)家珍。

梅濤在世界人工智能大會上發(fā)言圖片由智象未來提供

智象未來成立四年，從圖像、視頻生成到原生全模態(tài)世界模型，從工具到co-creator，從DIT架構(gòu)迭代到UiT架構(gòu)，每一次轉(zhuǎn)向都是對原有認(rèn)知的突破。（虎嗅注：以 Sora 為代表的 DiT架構(gòu)，它將圖像或視頻拆解為大量細(xì)小單元，并統(tǒng)一推演它們之間的關(guān)系，因此能夠生成細(xì)節(jié)豐富、視覺沖擊力強(qiáng)的結(jié)果。UiT思路則是將文本 Token、視覺信息和控制條件納入同一個模型空間，由統(tǒng)一 Transformer 直接完成對齊、理解與生成。簡言之，UiT能讓理解與生成更統(tǒng)一。）

智象未來這次的就是用UiT架構(gòu)，將8B參數(shù)的模型打出了超出56B模型的效果。

對于普通用戶來說，直接感受到的結(jié)果就是：模型更能理解用戶想要什么，生成效果更穩(wěn)定，復(fù)雜修改也更容易一次完成。

我們聊天的時點(diǎn)，恰逢視頻生成模型賽道加速升溫的時間節(jié)點(diǎn)和拐點(diǎn)。年初，Seedance2.0把AI視頻生成從“能用”推向“可控且可規(guī)模化”。近日，快手計劃分拆旗下視頻生成大模型業(yè)務(wù)可靈 AI，并以約 200 億美元估值尋求融資。商業(yè)化、資本化與模型能力同步提速，意味著視頻生成正成為生成式 AI 的核心戰(zhàn)場。

與此同時，初創(chuàng)公司也出現(xiàn)了分化，除了智象未來，還有愛詩科技、生數(shù)科技這樣的頭部公司，資本和用戶都在涌入，格局也在固化。

在這場競爭中，智象未來不是融資最多的，也不是體量最大的。東方富海合伙人王兵選擇智象未來，看中的是這家公司強(qiáng)大且穩(wěn)定的底層技術(shù)班底。梅濤本身，就是視頻生成的開創(chuàng)者，2017年，梅濤是全球第一篇文生視頻論文的作者。智象未來這么多年，該論文的核心研究者都沒有離職，極其穩(wěn)定。“最終能融到持續(xù)多資金的公司，一定是人才密度最高的公司，這是所有行業(yè)通律。”王兵說。

與此同時，另一個重要的賽道正在向視頻模型公司打開——具身智能世界模型，新的錢也開始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3億美金種子輪,估值35億美元；李飛飛的World Labs在2026年2月完成了10億美元融資，估值飆升至50億美元。2026年年初至今，已經(jīng)有超過13億美元流向世界模型賽道。

當(dāng)越來越多公司開始說世界模型時，我問梅濤，智象未來提出這個概念，是為了講故事嗎？梅濤說不是，早在 2022 年，他已經(jīng)帶著團(tuán)隊在京東亞洲一號物流倉里研究如何讓機(jī)器人如何穩(wěn)態(tài)運(yùn)營識別海量的包裹分揀，創(chuàng)業(yè)之初也在具身智能和視覺生成兩個方向之間深度思考過，最終選擇了視覺生成賽道，而2024年，智象未來內(nèi)部已經(jīng)在討論世界模型，“做視頻生成模型的這波人，是最有可能把世界模型做成。”

智象未來CTO姚霆說，智象的核心邏輯是做視覺創(chuàng)作，核心是解決創(chuàng)作本身的問題。這也是智象決定開展不同業(yè)務(wù)的底層邏輯。不管是面向影視、營銷行業(yè)做創(chuàng)作，還是給機(jī)器人做相關(guān)內(nèi)容創(chuàng)作，都屬于創(chuàng)作。在服務(wù)不同行業(yè)的過程中，會沉淀對應(yīng)的行業(yè)know-how，將其轉(zhuǎn)化為相關(guān)功能，未來隨著智能體發(fā)展，還可以沉淀為具備行業(yè)屬性的skill。

虎嗅交流了智象未來的創(chuàng)始人兼CEO梅濤、CTO姚霆、東方富海合伙人王兵以及諾亦騰創(chuàng)始人戴若犁，試圖還原在新技術(shù)浪潮到來之時，一家以創(chuàng)作為主線的初創(chuàng)公司如何建構(gòu)新的世界。

世界模型：視覺生成模型公司的新故事和底牌

在一場智象未來的內(nèi)部討論會上，梅濤他們在白板上用不同顏色的筆寫了團(tuán)隊對于世界模型的理解，其中特別用紅色的筆寫下“mold the world”——建模這個世界的同時，構(gòu)建世界。

在梅濤的思考中，世界模型需要三個要素：第一，能夠?qū)W會各種模態(tài)的表達(dá)，能夠?qū)φ麄€世界進(jìn)行建模；第二，能夠結(jié)合物理規(guī)律和因果關(guān)系進(jìn)行推理，“Reason the world”；第三，能夠把物理世界按照想象重建出來，也就是“mold the world”。

如今，對于世界模型的定義有三類，第一類路線是以李飛飛的World Labs為代表，核心理念是指一種空間智能，他們認(rèn)為世界模型應(yīng)該構(gòu)建一個持久的、三維的、可交互的實體空間；第二類路線是Yann LeCun為代表，認(rèn)為世界模型是智能體內(nèi)部的一個模塊，用于在抽象層面預(yù)測后果；第三類路線就是以DeepMind為代表的"視頻即世界"，將視頻生成作為世界模型的表現(xiàn)形式。

在王兵看來，到 2026 年行業(yè)對世界模型的理解逐步形成共識：無論是做 VLA 還是世界模型，核心都是底層基模能力。世界模型本質(zhì)上要訓(xùn)練出一個能夠理解并預(yù)測物理世界的大模型，不具備大模型訓(xùn)練能力的公司，很難真正做好這件事。擁有視頻模型訓(xùn)練能力的公司，已經(jīng)具備世界模型訓(xùn)練基礎(chǔ)。從文藝創(chuàng)作類視頻模型拓展具身智能相關(guān)的世界模型，本質(zhì)上是把訓(xùn)練數(shù)據(jù)換成符合物理規(guī)律、面向具體場景的具身數(shù)據(jù)，訓(xùn)練方法和工程能力是一脈相承的。真正的關(guān)鍵，是場景數(shù)據(jù)的選擇、規(guī)模和標(biāo)注質(zhì)量。

也因此，具身智能成了智象未來進(jìn)入世界模型的切口。

作為機(jī)器人數(shù)據(jù)公司諾亦騰的創(chuàng)始人，戴若犁思考世界模型相關(guān)的合作和布局已經(jīng)半年多。他很清楚，諾亦騰內(nèi)部雖然有擅長世界模型訓(xùn)練等團(tuán)隊，但訓(xùn)練多模態(tài)基礎(chǔ)模型耗時至少兩個月到三個月，成本千萬級，重復(fù)研發(fā)屬于資源浪費(fèi)，因此和視頻模型公司合作，是效率更高的做法。戴若犁說，視頻生成模型和具身智能的核心能力是同一個，那就是預(yù)測。

戴若犁舉個了例子，假設(shè)你要訓(xùn)練一個機(jī)器人抓取桌上的杯子。傳統(tǒng)的做法是，給機(jī)器人大量的抓取數(shù)據(jù)讓它學(xué)會"看到杯子——伸手——抓住"這個動作序列。但這種方法的問題是，如果杯子的形狀、位置、材質(zhì)發(fā)生變化,機(jī)器人就不知道怎么辦了。

但如果用視頻生成模型的思路，機(jī)器人會先預(yù)測：如果這樣伸手,杯子會怎么動?如果我用這個力度抓,杯子會不會碎?它會在腦子里模擬一遍整個過程,然后選擇最優(yōu)的行動方案。這種能力,就是視頻生成的世界模型帶來的。

諾亦騰的需求很清晰：把動捕數(shù)據(jù)里的視覺缺陷修掉。操作者戴著動捕手套，手套遮住了手部，給后續(xù)訓(xùn)練留下一個視覺盲點(diǎn)；測試場景太單一，缺乏多樣性。

戴若犁考察了國內(nèi)合適的合作方，最終敲定和智象未來的合作，除了發(fā)現(xiàn)智象未來也有向具身智能布局的規(guī)劃，“手快”也是這場合作達(dá)成的關(guān)鍵原因。提出需求之后，智象未來就開展 POC 驗證，很快得到積極結(jié)論。

智象未來CTO姚霆負(fù)責(zé)了這場合作，他說之所以“手快”，其實是兩個原因，一是模型能力已經(jīng)到了成熟階段，接到數(shù)據(jù)后很快完成生成，初始精度就達(dá)標(biāo)。二是智象之前做過大量視覺理解任務(wù)，這類數(shù)據(jù)生產(chǎn)工作流要生成能力和理解類算法同時到位。

這個合作在2025年初開始落地。智象未來用諾亦騰提供的動作捕捉數(shù)據(jù),訓(xùn)練了一個具身智能的原型模型。這個模型能夠完成抓取、放置、推動、旋轉(zhuǎn)等基礎(chǔ)動作,并且在執(zhí)行任務(wù)時,會自動考慮物理約束。更重要的是,這個模型的泛化能力很強(qiáng)。用杯子訓(xùn)練的模型,能夠直接遷移到抓取其他物體上。這種泛化能力，正是世界模型的核心價值。

做視頻領(lǐng)域的Anthropic

智象未來想成為一家什么樣的公司？梅濤的類比是視頻領(lǐng)域的Anthropic。這個類比的標(biāo)準(zhǔn)是基于ToB的企業(yè)服務(wù)，這也是智象未來的商業(yè)模式。這家后起于OpenAI的公司，突破了1.2萬億的估值。

梅濤把大模型賽道分為三層。第一層是大型互聯(lián)網(wǎng)公司,有流量入口、C端用戶,像Google、字節(jié)。第二層是做基礎(chǔ)模型的公司，例如OpenAI的Sora。第三層是做各種agent和垂類應(yīng)用的公司,像Cursor這樣的。

智象未來的定位在第二層和第三層之間——既做模型又做應(yīng)用,模型和應(yīng)用雙輪驅(qū)動。但梅濤很清楚,他們的模型一定不是要做非常通用的模型跟大廠競爭,而是基于自己的場景來優(yōu)化，做有特色的模型。

“大模型的能力有點(diǎn)像海平面，一直在往上漲，很多公司就被淹沒了。”

梅濤用這個比喻來描述AI行業(yè)的變化，那么沒被淹沒的是什么？要么是足夠高的山，要么是隨水而漲的船。智象未來的定位是兩者都做：圖片和視頻模型是一座高山峰，三個場景的Agent 是三艘船：一個是跨境電商的短視頻營銷，另一個是影視制作，還有一個面向?qū)I(yè)級C端用戶的場景，社媒內(nèi)容創(chuàng)作。三種場景，ToB是核心。

“在AI的商業(yè)模式里，最長久、最健康的應(yīng)該一定是企業(yè)服務(wù)。”梅濤說，原因很簡單：企業(yè)客戶的復(fù)購率極高，隨著產(chǎn)品深度的增加，客單價可以不斷提升，其商業(yè)天花板遠(yuǎn)超C端。

至于C端，純工具性的C端產(chǎn)品，用戶新鮮感一過，留存率極低，且Token消耗巨大，價格昂貴。如果無法讓C端用戶大量付費(fèi)，這種模式無法形成完整的商業(yè)閉環(huán)。

什么時候數(shù)據(jù)飛輪開始轉(zhuǎn)起來？梅濤說，第一個是跨境電商短視頻營銷。智象未來有一個 agent 專門分析電商平臺上的爆款視頻，把它拆解、重構(gòu)成想要的視頻生成模板，然后復(fù)刻這個模板提供給跨境電商平臺商家使用，每天更新。生成視頻之后，根據(jù)用戶的觀看量反饋去決定是復(fù)刻還是放棄。這個完整鏈路今天已經(jīng)跑起來——一天能支持商家產(chǎn)出做將近50條短視頻廣告。

智象未來生成的廣告圖圖片由智象未來提供

第二個是專業(yè)級C 端的創(chuàng)作工具。在不同國家流行不同的模版——在巴西做球星相關(guān)短視頻，在印度做舞蹈動作控制模板。如果不通過用戶反饋，根本不知道這個國家的喜好。現(xiàn)在智象未來面向?qū)I(yè)級C 端的APP 每個月有超過千萬的新增下載量。

第二種模式叫做RaaS（Results as a Service，按結(jié)果付費(fèi)服務(wù)），則展現(xiàn)了AI顛覆傳統(tǒng)商業(yè)模式的巨大潛力。梅濤說，所謂RaaS，就是他們在給客戶提供AI生成服務(wù)的同時，直接為客戶的商業(yè)結(jié)果負(fù)責(zé)，客戶愿意按最終的轉(zhuǎn)化結(jié)果來付費(fèi)、甚至是返傭。

這件事聽起來簡單，但智象未來跑了有一年半的時間。“直到2024年的七八月份，我們才真正感覺自己活下來。”梅濤回憶，在最初的一年多里，公司內(nèi)部也在搖擺，最初他們試圖將AI能力打包成標(biāo)準(zhǔn)的SaaS軟件賣給企業(yè)客戶，但很快發(fā)現(xiàn)，當(dāng)時的視頻生成工具使用門檻依然很高，不同悟性的使用者，用同樣的軟件生成出來的效果天差地別，“既然效果無法標(biāo)準(zhǔn)化，你就很難給這個軟件制定一個公允的價格，客戶也不愿意買單。”

轉(zhuǎn)折點(diǎn)在2024年夏天悄然降臨。借著Sora發(fā)布后的市場東風(fēng)，他們在當(dāng)年5月底推出了一款類似架構(gòu)的商業(yè)化產(chǎn)品。這款產(chǎn)品上線當(dāng)月便斬獲了兩三百萬的月活躍用戶。如今，其付費(fèi)用戶的留存率已穩(wěn)定在50%以上。

2025年年底，隨著應(yīng)用的爆發(fā)，多模態(tài)的token消耗量極大，加之Seedance的發(fā)布，視頻模型領(lǐng)域迎來了類似GPT3.5的智能涌現(xiàn)時刻，梅濤發(fā)現(xiàn)公司的估值也出現(xiàn)了明顯的增長。

進(jìn)入智能體的世界

智象未來的Agent戰(zhàn)略，本質(zhì)上是在為兩個世界搭建橋梁：一個是人類創(chuàng)作者的世界，一個是智能體的世界。在人類創(chuàng)作者的世界里，Agent是co-creator，是幫助人類更好地表達(dá)創(chuàng)意的伙伴；在智能體的世界里，Agent是能力提供者，是讓機(jī)器人理解和生成視覺內(nèi)容的基礎(chǔ)設(shè)施。

作為智象未來的CTO，姚霆最近思考最多的事情就是智能體，如何通過智能體放大智象未來的能力？如何為智能體設(shè)計交互？

2026年初，OpenClaw出現(xiàn)，這個被稱為"龍蝦"的智能體，定義了一個新概念——co-worker（共同工作伙伴）。 “但我們要在此基礎(chǔ)上升級成co-creator（共同創(chuàng)作者）。”姚霆說。

姚霆對Agent的理解，來自一個更底層的架構(gòu)思考。他用一個公式描述了未來智能化應(yīng)用的范式，未來所有的智能化APP等于Harness（在AI 智能體的世界里，它就是那個讓智能體既能夠發(fā)揮能力，又不會失控的"安全腳手架"）乘以一些skills，底層就是OS。

比如在影視創(chuàng)作場景中，一個“分鏡生成”的skill，不僅要能根據(jù)劇本生成畫面，還要理解鏡頭語言、敘事節(jié)奏、情緒表達(dá)，甚至要知道不同類型的作品（短劇、廣告、紀(jì)錄片）對分鏡的要求有什么差異。這種深度的行業(yè)理解，不是調(diào)用幾個API就能實現(xiàn)的。

這也是為什么智象未來要自己承接影視作品、自己做短劇、自己服務(wù)營銷客戶，是為了在真實場景中沉淀出不可復(fù)制的能力。姚霆說，未來的skill會像互聯(lián)網(wǎng)時代的網(wǎng)頁一樣多，會有大量的工作需要做——評估、篩選、推薦、組合。姚霆把這些能力分成四層。

第一層是基礎(chǔ)模型能力，以API的形式提供給開發(fā)者，這是智象未來的底座，也是和大廠競爭的基礎(chǔ)。但這一層的競爭會越來越激烈，價格會越來越低，利潤會越來越薄。

第二層是標(biāo)準(zhǔn)化的skill，比如"文生視頻"、"圖生視頻"、"視頻延長"，這些是通用的功能模塊，可以被集成到各種應(yīng)用中。這一層的價值在于穩(wěn)定性和易用性，但差異化空間有限。

第三層是行業(yè)定制的skill，比如"短劇分鏡生成"、"產(chǎn)品廣告視頻制作"、"紀(jì)錄片素材生成"。

第四層是完整的工作流，比如"從劇本到成片的短劇生產(chǎn)線"、"從產(chǎn)品圖到投放視頻的營銷自動化"，這些工作流串聯(lián)了多個skill，形成了端到端的解決方案。這些skill深度融合了行業(yè)know-how，是智象未來真正的護(hù)城河。

“我們和大廠做通用基礎(chǔ)設(shè)施的路線形成明顯的差異化競爭優(yōu)勢。”姚霆說，這個差異化，就體現(xiàn)在第三層和第四層——那些深度綁定行業(yè)、不可輕易復(fù)制的高價值能力。

另一個讓姚霆更關(guān)注的事情就是交互，這能夠決定產(chǎn)品是否能夠吸引足夠多的用戶。"是用命令行、圖形界面，還是聊天加畫布的形式，甚至是多模態(tài)的聯(lián)動交互。"姚霆說，只要在交互這一個點(diǎn)上實現(xiàn)突破，就能吸引很多用戶。

姚霆和梅濤對視頻模型領(lǐng)域的“Aha moment”有一個共同的判斷：用戶提供一個劇本，系統(tǒng)就能直接生成符合需求的長視頻故事。至于現(xiàn)在，這個“Aha moment”還沒有到。

以下為虎嗅整理的部分訪談?wù)?/strong>

虎嗅：你們做跨境營銷、影視、具身智能……一直在做加法，有沒有做過減法？

梅濤：也做了減法。我們一開始想做游戲，后來發(fā)現(xiàn)游戲這個生意比較難做。大游戲公司想自己建體系；小游戲公司成本要求嚴(yán)格，而且很難把數(shù)據(jù)放到體外，只能私有化部署，很難規(guī)模化，所以果斷放一放。

還有一個慘痛的經(jīng)驗教訓(xùn)——我們做了線下打印店的素材管理，后來發(fā)現(xiàn)打印店本身就是夕陽產(chǎn)業(yè)，這些人自己也不確定將來是否還會在這個行業(yè)做下去，學(xué)習(xí)速度也慢。所以我們確實踩了一些坑。

經(jīng)過第四年的探索，基本形成了可以規(guī)模化的三個 ToB 模式：第一是線上線下商業(yè)體的短視頻營銷和服務(wù)，軟硬件一體；第二是短劇多人協(xié)作平臺；第三是給全球用戶做的媒體創(chuàng)作工具和平臺。在一段時間內(nèi)，我們會在這三個方向上不斷深耕。

虎嗅：現(xiàn)在視頻模型領(lǐng)域還是以Scaling Law為主，對于資源有限的創(chuàng)業(yè)公司，要怎么堆資源和大廠競爭，是靠不斷融資嗎？

姚霆：融資肯定是需要的，但創(chuàng)業(yè)公司的融資體量和大廠相比依然有很大差距，要和大廠競爭主要要做好三點(diǎn)：第一是認(rèn)知要快，對模型架構(gòu)、下一代模型的技術(shù)走向和選型判斷要精準(zhǔn)，認(rèn)知比大廠超前半個身位甚至3個月就有很大機(jī)會；第二是落地速度快，確定方向后能快速迭代出模型，同步推進(jìn)產(chǎn)品化和商業(yè)化，形成產(chǎn)品或者用戶壁壘；第三是組織架構(gòu)調(diào)整快，創(chuàng)業(yè)公司相比大廠的優(yōu)勢就是靈活性高，組織架構(gòu)扁平、轉(zhuǎn)身快才能應(yīng)對各類產(chǎn)品變化，發(fā)揮自身優(yōu)勢。

虎嗅：如果有一天智象失敗了，你覺得可能是什么原因？

梅濤：可能是認(rèn)知停止迭代了。當(dāng)然這件事我覺得也不太可能發(fā)生，因為每天都在大量接觸新的東西。

虎嗅：怎么定義“認(rèn)知”？

梅濤：認(rèn)知包括對技術(shù)的認(rèn)知、對商業(yè)化的認(rèn)知、對競爭態(tài)勢的認(rèn)知，這包含了各個方面。今天的創(chuàng)業(yè)對創(chuàng)始人要求很高，你要懂技術(shù)，有技術(shù)路線的判斷力和前瞻性，還要有商業(yè)化的認(rèn)知、團(tuán)隊健康度的認(rèn)知、資本化的認(rèn)知，基本上要求你是一個六邊形的戰(zhàn)士，不能有短板。

虎嗅：那你現(xiàn)在每天最焦慮的是什么？是融錢的問題嗎？

梅濤：不是錢的問題，也不是人的問題，而是認(rèn)知的問題。我最擔(dān)心的一點(diǎn)，是我自己的認(rèn)知迭代不夠快，趕不上行業(yè)的迭代速度；以及團(tuán)隊核心的那些人，認(rèn)知迭代不夠快，甚至不如我快——那就有問題了。創(chuàng)業(yè)，你只能掙到自己認(rèn)知范圍之內(nèi)的錢，認(rèn)知范圍之外是一個巨大的陷阱，把我們這幫青蛙陷在井里。我希望大家在認(rèn)知層面上一定要卷起來。

虎嗅：在過去這幾年里，你自己認(rèn)知最大的一次迭代是什么？或者直接推翻過去的認(rèn)知。

梅濤：我覺得我每天都在迭代。Sora這件事對我在技術(shù)認(rèn)知上是一次反省。很簡單，如果相信某一條技術(shù)路線，就應(yīng)該堅持，而不是東試西試。我當(dāng)時其實覺得 DiT 這個方向很好，但沒有下定決心，因為創(chuàng)業(yè)資金和資源有限，沒法多條線試錯。Sora 出來后，我們就堅定走 DiT 的路線。

虎嗅：但你們不是又轉(zhuǎn)向新的UiT架構(gòu)嗎？

梅濤：因為如果光拼數(shù)據(jù)、光拼算力，這不是創(chuàng)業(yè)公司該干的事，要想用更少的成本、更高效的框架達(dá)到下一個階段的效果，創(chuàng)業(yè)公司就必須從架構(gòu)層面重新思考。

這也是我們開始做 UiT 的原因。UiT 不是簡單換一套模型，而是希望從底層把文本、圖像和控制條件統(tǒng)一到同一個模型空間里，讓模型更早、更直接地完成理解、對齊和生成。我們認(rèn)為，這種原生統(tǒng)一的架構(gòu)，才是圖像生成繼續(xù)走向視頻生成、乃至世界模型的重要基礎(chǔ)。

虎嗅：那你對于公司未來的發(fā)展最擔(dān)心什么？

梅濤：我最擔(dān)心的地方就是：第一，我的方向不對，沒有前瞻性；第二，我的認(rèn)知成為公司天花板。我有時候會擔(dān)心船員發(fā)現(xiàn)方向不對但不告訴我。我希望每個人都有自己認(rèn)知迭代的角度，哪怕跟我不一樣也要告訴我，讓我有更多觸角去感知方向是否正確。

虎嗅：現(xiàn)在AI領(lǐng)域人才薪酬很高，你們擔(dān)心團(tuán)隊核心成員被“挖角”流失的問題嗎？

姚霆：多少會有壓力，我和團(tuán)隊也說過，大家聚在一起做這件事不是為了錢，如果只看薪資大家都應(yīng)該去大廠。我們的團(tuán)隊成員尤其是模型團(tuán)隊的人，對模型研發(fā)都很癡迷，大家的共識是想在這個領(lǐng)域做出能被記住的成果，比如以后墓志銘能留下自己參與研發(fā)的知名模型的名字。

虎嗅：你自己希望以后世界以什么記住你？

姚霆：我肯定希望能留下因為我而存在的模型的名字，比如后續(xù)我們推出的出色的、被行業(yè)廣泛認(rèn)可的模型，大家提到的時候知道是我參與做的，對我來說就足夠了。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4858842.html?f=wyxwapp

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

詞元交易與全球算力大流通

經(jīng)濟(jì)觀察報 2026-05-16 19:06:25
0 跟貼 0

奧特曼親推！400萬周活Codex殺入移動端，碼農(nóng)不用再死守電腦了

新智元 2026-05-16 12:14:42
0 跟貼 0

走進(jìn)數(shù)采工廠：深聊機(jī)器人數(shù)據(jù)荒漠、四層金字塔與種樹人

鈦媒體APP 2026-05-17 08:48:47
0 跟貼 0

Anthropic CEO最新專訪：Claude新功能幾乎完全由AI自主開發(fā)，軟件將步入免費(fèi)時代

鈦媒體APP 2026-05-17 16:00:16
11 跟貼 11

別被「更像真的視頻」騙了，AI視頻生成，還遠(yuǎn)未真正學(xué)會物理世界

機(jī)器之心Pro 2026-04-03 16:07:15
0 跟貼 0

一只機(jī)器狗，把英偉達(dá)的算力王座拱翻了

量子位 2026-05-17 23:09:12
0 跟貼 0

算力網(wǎng)要來了！

新華社 2026-05-17 09:06:16
237 跟貼 237

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

Claude殺入華爾街，10個智能體接入Office全家桶，爆改分析師桌面

新智元 2026-05-17 15:32:10
5 跟貼 5

姐，我剪完這條視頻也拉肚子了

我的偶像巨頑皮 2026-05-13 15:53:13
15 跟貼 15

印度板球聯(lián)賽用上AI隊長：四個智能體吵完再決策

硬核玩家2哈 2026-05-18 01:02:02
0 跟貼 0

你的身體不是三維的？分形幾何揭示宇宙藏在你肺里的秘密

六六冷知識 2026-05-17 09:42:00
30 跟貼 30

阿里開源：用凍結(jié)多模態(tài)大模型為文生圖訓(xùn)練提供高質(zhì)量Reward

機(jī)器之心Pro 2026-05-06 16:50:57
0 跟貼 0

QVGen讓「超低比特視頻生成量化」真正可用！

機(jī)器之心Pro 2026-02-25 18:07:24
0 跟貼 0

蝦馬之后OpenHuman火了，用卡帕西式知識庫20分鐘了解你的一切

量子位 2026-05-16 14:40:09
11 跟貼 11

這是一條含帥哥量100%%的視頻！

小魚海棠 2026-05-14 16:00:00
0 跟貼 0

這段女巫抓人爬墻的視頻你們看過了嗎？事件的真相又是怎樣的呢？

舊事別提 2026-05-14 08:57:48
1 跟貼 1

中國記者徐德智在美國停留6年后終于要回國了

新民周刊 2026-05-17 09:11:41
27557 跟貼 27557

只有做過農(nóng)活的人，才知道這個視頻的含金量！

阿蝦AIXA 2026-05-17 02:00:53
1 跟貼 1

看這個視頻的時候，千萬不要外放聲音，不然會讓你很尷尬

歷史圖鑒 2026-05-17 22:24:21
0 跟貼 0

上下學(xué)路上車太多，爸爸開船接送女兒：15分鐘車程開船只需5分鐘

星視頻 2026-05-17 10:53:29
65 跟貼 65

我發(fā)布了一條視頻，快來看看吧～

葉玲秋雨 2026-05-17 03:11:51
0 跟貼 0

小朋友轉(zhuǎn)圈玩耍砸壞電視這個視頻價值2000塊

小火柴視頻 2026-05-15 09:45:17
0 跟貼 0

這個視頻有很多年了，看到了再感慨一下

歲月痕 2026-05-18 03:09:30
0 跟貼 0

我一直以為我的鞋子不多，我老公說把我的鞋子也拿出來拍個視頻

芋泥哈波波 2026-05-17 04:04:01
0 跟貼 0

有理數(shù)巧算，一個視頻學(xué)會！

大鵬老師講數(shù)學(xué) 2026-05-14 05:07:00
0 跟貼 0

發(fā)個視頻證明我很活躍

月野兔在此 2026-05-14 16:37:51
0 跟貼 0

廣汽昊鉑S600全系搭載Momenta強(qiáng)化學(xué)習(xí)大模型

IT之家 2026-05-17 22:37:49
2 跟貼 2

企業(yè)搶招的ERP顧問：不敲代碼也能年入30萬

薛定諤的BUG 2026-05-17 02:41:01
0 跟貼 0

這條視頻如果能順利發(fā)出去，各位且看且珍惜

真探李奧 2026-05-16 11:11:30
0 跟貼 0

這條視頻希望每個人都能看到

皮膚科大黃醫(yī)生 2026-05-16 18:43:11
0 跟貼 0

你們覺得這到底是什么東西,這段視頻來自短

趣知小故事 2026-05-17 16:24:28
1 跟貼 1

日推刷到超穩(wěn)視頻，師傅操作穩(wěn)如老狗，這技術(shù)太絕了

搞笑不打烊 2026-05-17 00:00:00
0 跟貼 0

視頻有點(diǎn)長一定要仔細(xì)看完，保證您會喜歡

史密斯楊 2026-05-17 14:58:54
0 跟貼 0

感覺自己剪了一個很屌的視頻

金剛芭比熊 2026-05-14 15:05:59
0 跟貼 0

天壇竟是古代宇宙模型？建筑里藏著千年哲學(xué)密碼

開著車去流浪 2026-05-17 00:36:37
0 跟貼 0

智能體從「單兵作戰(zhàn)」到「精銳團(tuán)隊」 -2

機(jī)器之心Pro 2026-04-28 16:56:00
0 跟貼 0

AReaL v1.0開源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0

大模型語言探針：研究生必讀的句法與語義研究指南

賽博蘭博 2026-05-18 03:34:59
0 跟貼 0

限流到?jīng)]有興趣發(fā)視頻了

月野兔在此 2026-05-17 16:39:09
0 跟貼 0

山東5.4萬個村！不拆房不搬家不合村并居，這次要抱團(tuán)賺大錢了
小影的娛樂
2026-05-17 16:12:48

殺瘋了！第5冠！張雪機(jī)車橫掃聯(lián)賽，徹底撕破歐美日37年壟斷！
大稻網(wǎng)絡(luò)科技
2026-05-17 21:16:18

蟬聯(lián)MVP，Shams：亞歷山大本賽季多項數(shù)據(jù)創(chuàng)造歷史級別紀(jì)錄
懂球帝
2026-05-18 00:27:32

韓國一美女因晨跑健身“走紅”，身材緊致太吸睛，網(wǎng)友：太漂亮了
番外行
2026-05-16 15:41:17

最近李晨的瓜，有點(diǎn)大
黎兜兜
2026-05-15 15:29:18

去年休賽期千萬級別引援！前男籃集訓(xùn)國手后衛(wèi)被上海主帥遺忘
狼叔評論
2026-05-18 01:58:16

任正非論AI：一位工業(yè)哲學(xué)家的清醒與遠(yuǎn)見
新浪財經(jīng)
2026-05-17 00:29:09

《鏢人》大賺14億后，吳京一口氣籌備10部大片，再救市場一把
凡知
2026-05-17 19:32:49

從風(fēng)塵女子到海盜女王：逐漸遺忘的一個中國女人，被西方尊為偉人
文史達(dá)觀
2026-05-09 18:24:16

丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發(fā)生意外
溫情郵局
2025-03-26 11:58:52

花探唐先生們作品里面的女生空姐和學(xué)生緣何占大多數(shù)？
挪威森林
2026-05-16 13:12:22

全網(wǎng)羨慕馬斯克小兒子，卻少有人知道，他還有3個自閉癥孩子！
大米和小米
2026-05-16 18:34:04

《主角》胡三元出獄大變天，惡領(lǐng)導(dǎo)下臺，易青娥熬成頂流臺柱子
慫熊劇場
2026-05-16 06:45:57

諾蘭用黑人演古希臘美女海倫遭馬斯克怒撕
名人茍或
2026-05-18 07:03:30

你見過多少賭博做局內(nèi)幕？網(wǎng)友：全是精心套路，根本贏不了
另子維愛讀史
2026-05-13 07:43:50

簡直自取其辱！中國軍人與特朗普轉(zhuǎn)機(jī)同框火爆外網(wǎng)，美軍也來學(xué)
胖福的小木屋
2026-05-16 23:55:24

炸翻英超！8000萬全能中場示好曼聯(lián)，阿森納慌到坐不住！
林子說事
2026-05-17 08:20:36

逼走陳忠和，打壓劉國梁，排擠郎平，90歲“體壇惡人”如今啥情況
拳擊時空
2026-05-18 05:37:01

Kindle彩屏版對比：多花30美元值不值？
硬核玩家2哈
2026-05-17 04:41:03

何超儀曝姐姐何超蕸真正死因：她全身都是癌，突然離世無法留遺言
八卦寶寶
2026-05-17 16:52:47

2026-05-18 07:44:49

虎嗅APP

個性化商業(yè)資訊與觀點(diǎn)交流平臺

26314文章數(shù) 687734關(guān)注度

往期回顧全部

科技要聞

三大運(yùn)營商即將免月租？多方回應(yīng)

谷歌I/O大會前瞻：Gemini 4.0未必封神大招是生態(tài)

李在镕公開道歉三度鞠躬五萬人大罷工箭在弦上

漲的是車價，要的是老命

Anthropic急喊：必須壓中國AI一頭不然就危險了

頭條要聞

外媒：中國電動汽車即將登陸加拿大經(jīng)銷商等不及了

央視梳理"190元榴蓮僅退款"事件:商家維權(quán)代價超5千元

皮卡墜河9人失聯(lián) 涉事公司負(fù)責(zé)人：約定工頭負(fù)責(zé)安全

公交側(cè)翻致2名學(xué)生身亡學(xué)生：感覺車被什么絆了一下

特朗普：如果伊朗不迅速行動 “將一無所有”

頭條要聞

外媒：中國電動汽車即將登陸加拿大經(jīng)銷商等不及了

央視梳理"190元榴蓮僅退款"事件:商家維權(quán)代價超5千元

皮卡墜河9人失聯(lián) 涉事公司負(fù)責(zé)人：約定工頭負(fù)責(zé)安全

公交側(cè)翻致2名學(xué)生身亡學(xué)生：感覺車被什么絆了一下

特朗普：如果伊朗不迅速行動 “將一無所有”

體育要聞

生死戰(zhàn)只拿3分的核心，還有留的必要嗎？

蟬聯(lián)邁克爾-喬丹獎！亞歷山大再次當(dāng)選常規(guī)賽MVP 國際球星八連霸

北京客勝上海1-1扳平陳盈駿26分古德溫空砍32+5+5

英超-曼聯(lián)3-2勝森林 B費(fèi)聯(lián)賽20助攻追平歷史紀(jì)錄

朝鮮女足5-1日本！第5次奪U17亞洲杯冠軍俞正香大四喜+6場轟15球

娛樂要聞

盧昱曉道歉：認(rèn)識到問題嚴(yán)重性！

鼎心風(fēng)暴最大彩蛋：“當(dāng)代竇娥”楊思琦，食足死貓十五年？

E句話 | 溫嵐這也太敬業(yè)了！

和奧運(yùn)冠軍馬琳離婚分走千萬，再婚嫁給金融學(xué)霸

女排首任隊長：棄官從商成富婆

財經(jīng)要聞

長鑫科技預(yù)計上半年凈利至少500億元

A股ESG強(qiáng)制披露首考！券商答卷亮眼，形式化短板亟待破局

海通國際張憶東：中國股市夏季或呈N型震蕩

比亞迪的歐洲夢：與Stellantis談判收購歐洲工廠

日賺近4億！存儲龍頭長鑫科技IPO有新進(jìn)展，核心受益股一覽

汽車要聞

車長超5米/雙動力可選昊鉑S600預(yù)售權(quán)益價18.89萬起

大五座SUV卷王！樂道L80上市租電15.68萬元起

高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

標(biāo)桿級乘坐感受駕駛智界V9需要再細(xì)膩一點(diǎn)？

醉翁之意不在“九” 智界V9上市售價39.98-52.98萬

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

親子

游戲

公開課

本地新聞

用蘇繡的方式，打開江西婺源

用青花瓷的方式，打開西溪濕地

云游中國｜逛世界風(fēng)箏都留學(xué)生探秘中國傳統(tǒng)文化

SAGA GIRLS 2026女團(tuán)選秀

旅游要聞

從打卡參觀到深耕內(nèi)涵，青年與博物館雙向奔赴

用“Country Walk”打開中國鄉(xiāng)村（國際論道）

真相來了丨警惕AI謠言！“張家界大峽谷玻璃橋斷裂垮塌”視頻系偽造

用“Country Walk”打開中國鄉(xiāng)村（國際論道）

親子要聞

小腳丫的倔強(qiáng)！萌娃展示超絕一字馬技能 #睡個好覺

兒童患癌越來越多！多名院士呼吁：這些東西少給孩子吃！危害大！

健康夜話 | 觸摸世界，不止屏幕一種方式

快遞運(yùn)輸車幫助救護(hù)車回家 #汪汪隊 #大型挖掘機(jī)挖土玩具

寶藍(lán)不吃飯偷吃糖果冰淇淋，被爸爸抓到了，爸爸很生氣。

魔壇節(jié)奏丨古樹杯120隊遭絕平，中國退役WCG冠軍獲Blizzcon邀請

LPL第二賽段：大王還是大王，BLG橫掃AL，完美收官

直到世界的盡頭！《文明7》即將免費(fèi)更新傳奇征服者

體量恐怖！《紅沙》發(fā)售兩個月：通關(guān)率不到7%！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

七個無法存下錢的壞習(xí)慣

李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

最早做文生視頻的人，開始構(gòu)建世界

世界模型：視覺生成模型公司的新故事和底牌

做視頻領(lǐng)域的Anthropic

進(jìn)入智能體的世界

三大運(yùn)營商即將免月租？多方回應(yīng)

外媒：中國電動汽車即將登陸加拿大 經(jīng)銷商等不及了

外媒：中國電動汽車即將登陸加拿大 經(jīng)銷商等不及了

生死戰(zhàn)只拿3分的核心，還有留的必要嗎？

盧昱曉道歉：認(rèn)識到問題嚴(yán)重性！

長鑫科技 預(yù)計上半年凈利至少500億元

車長超5米/雙動力可選 昊鉑S600預(yù)售權(quán)益價18.89萬起

態(tài)度原創(chuàng)

用蘇繡的方式，打開江西婺源

小腳丫的倔強(qiáng)！萌娃展示超絕一字馬技能 #睡個好覺

魔壇節(jié)奏丨古樹杯120隊遭絕平，中國退役WCG冠軍獲Blizzcon邀請

外媒：中國電動汽車即將登陸加拿大經(jīng)銷商等不及了

外媒：中國電動汽車即將登陸加拿大經(jīng)銷商等不及了

長鑫科技預(yù)計上半年凈利至少500億元

車長超5米/雙動力可選昊鉑S600預(yù)售權(quán)益價18.89萬起