![]()
出品|虎嗅科技組
作者|陳伊凡
編輯|苗正卿
頭圖|AI生成
“AI原生100”是虎嗅科技組推出針對AI原生創(chuàng)新欄目,這是本系列的第「54」篇文章。
“創(chuàng)業(yè)只能掙到自己認(rèn)知范圍內(nèi)的錢,認(rèn)知范圍外是一個巨大的陷阱,把我們這幫青蛙陷在井里。”
梅濤用這句話來描述創(chuàng)業(yè)公司面臨的挑戰(zhàn)和作為視頻模型生成公司智象未來創(chuàng)始人兼CEO的焦慮,不是技術(shù)不夠強(qiáng),也不是錢不夠多,是認(rèn)知邊界。如何跳出這口井?梅濤的辦法是:自身迭代、團(tuán)隊的碰撞,朋友圈的刺激。
近日,全球知名獨(dú)立第三方AI模型評測平臺Artificial Analysis的文生圖榜單(Text to Image Leaderboard)更新,HiDream-O1-Image 開源版本躋身文生圖(Text to Image)模型榜單前列,并位列開源模型第一。Artificial Analysis是目前全球公認(rèn)最具權(quán)威性和參考價值的獨(dú)立 AI 基準(zhǔn)測評機(jī)構(gòu)之一,在業(yè)界常被譽(yù)為“AI 領(lǐng)域的 Gartner”。
![]()
Artificial Analysis的文生圖榜單
走進(jìn)智象未來合肥的辦公室,首先映入眼簾的是一面員工照片墻。所有頭像,都是AIGC生成的動漫風(fēng)格。這家公司的核心業(yè)務(wù)是圖像和視頻生成——AI時代的自己,是他們在智象未來的第一課。
![]()
智象未來合肥辦公室門口的照片墻 圖片由智象未來提供
梅濤的會客廳,滿墻合影。這是梅濤的朋友圈,也是全球人工智能行業(yè)的半壁江山。隨便指向哪一張,梅濤都能說出來龍去脈——哪年在哪里,當(dāng)時聊了什么,那個人后來去了哪里。微軟的同事,京東的伙伴,投資人,行業(yè)里來來往往的導(dǎo)師、朋友和合作伙伴……照片背后的故事,他細(xì)數(shù)家珍。
![]()
梅濤在世界人工智能大會上發(fā)言 圖片由智象未來提供
智象未來成立四年,從圖像、視頻生成到原生全模態(tài)世界模型,從工具到co-creator,從DIT架構(gòu)迭代到UiT架構(gòu),每一次轉(zhuǎn)向都是對原有認(rèn)知的突破。(虎嗅注:以 Sora 為代表的 DiT架構(gòu),它將圖像或視頻拆解為大量細(xì)小單元,并統(tǒng)一推演它們之間的關(guān)系,因此能夠生成細(xì)節(jié)豐富、視覺沖擊力強(qiáng)的結(jié)果。UiT思路則是將文本 Token、視覺信息和控制條件納入同一個模型空間,由統(tǒng)一 Transformer 直接完成對齊、理解與生成。簡言之,UiT能讓理解與生成更統(tǒng)一。)
智象未來這次的就是用UiT架構(gòu),將8B參數(shù)的模型打出了超出56B模型的效果。
對于普通用戶來說,直接感受到的結(jié)果就是:模型更能理解用戶想要什么,生成效果更穩(wěn)定,復(fù)雜修改也更容易一次完成。
我們聊天的時點(diǎn),恰逢視頻生成模型賽道加速升溫的時間節(jié)點(diǎn)和拐點(diǎn)。年初,Seedance2.0把AI視頻生成從“能用”推向“可控且可規(guī)模化”。近日,快手計劃分拆旗下視頻生成大模型業(yè)務(wù)可靈 AI,并以約 200 億美元估值尋求融資。商業(yè)化、資本化與模型能力同步提速,意味著視頻生成正成為生成式 AI 的核心戰(zhàn)場。
與此同時,初創(chuàng)公司也出現(xiàn)了分化,除了智象未來,還有愛詩科技、生數(shù)科技這樣的頭部公司,資本和用戶都在涌入,格局也在固化。
在這場競爭中,智象未來不是融資最多的,也不是體量最大的。東方富海合伙人王兵選擇智象未來,看中的是這家公司強(qiáng)大且穩(wěn)定的底層技術(shù)班底。梅濤本身,就是視頻生成的開創(chuàng)者,2017年,梅濤是全球第一篇文生視頻論文的作者。智象未來這么多年,該論文的核心研究者都沒有離職,極其穩(wěn)定。“最終能融到持續(xù)多資金的公司,一定是人才密度最高的公司,這是所有行業(yè)通律。”王兵說。
與此同時,另一個重要的賽道正在向視頻模型公司打開——具身智能世界模型,新的錢也開始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3億美金種子輪,估值35億美元;李飛飛的World Labs在2026年2月完成了10億美元融資,估值飆升至50億美元。2026年年初至今,已經(jīng)有超過13億美元流向世界模型賽道。
當(dāng)越來越多公司開始說世界模型時,我問梅濤,智象未來提出這個概念,是為了講故事嗎?梅濤說不是,早在 2022 年,他已經(jīng)帶著團(tuán)隊在京東亞洲一號物流倉里研究如何讓機(jī)器人如何穩(wěn)態(tài)運(yùn)營識別海量的包裹分揀,創(chuàng)業(yè)之初也在具身智能和視覺生成兩個方向之間深度思考過,最終選擇了視覺生成賽道,而2024年,智象未來內(nèi)部已經(jīng)在討論世界模型,“做視頻生成模型的這波人,是最有可能把世界模型做成。”
智象未來CTO姚霆說,智象的核心邏輯是做視覺創(chuàng)作,核心是解決創(chuàng)作本身的問題。這也是智象決定開展不同業(yè)務(wù)的底層邏輯。不管是面向影視、營銷行業(yè)做創(chuàng)作,還是給機(jī)器人做相關(guān)內(nèi)容創(chuàng)作,都屬于創(chuàng)作。在服務(wù)不同行業(yè)的過程中,會沉淀對應(yīng)的行業(yè)know-how,將其轉(zhuǎn)化為相關(guān)功能,未來隨著智能體發(fā)展,還可以沉淀為具備行業(yè)屬性的skill。
虎嗅交流了智象未來的創(chuàng)始人兼CEO梅濤、CTO姚霆、東方富海合伙人王兵以及諾亦騰創(chuàng)始人戴若犁,試圖還原在新技術(shù)浪潮到來之時,一家以創(chuàng)作為主線的初創(chuàng)公司如何建構(gòu)新的世界。
世界模型:視覺生成模型公司的新故事和底牌
在一場智象未來的內(nèi)部討論會上,梅濤他們在白板上用不同顏色的筆寫了團(tuán)隊對于世界模型的理解,其中特別用紅色的筆寫下“mold the world”——建模這個世界的同時,構(gòu)建世界。
在梅濤的思考中,世界模型需要三個要素:第一,能夠?qū)W會各種模態(tài)的表達(dá),能夠?qū)φ麄€世界進(jìn)行建模;第二,能夠結(jié)合物理規(guī)律和因果關(guān)系進(jìn)行推理,“Reason the world”;第三,能夠把物理世界按照想象重建出來,也就是“mold the world”。
如今,對于世界模型的定義有三類,第一類路線是以李飛飛的World Labs為代表,核心理念是指一種空間智能,他們認(rèn)為世界模型應(yīng)該構(gòu)建一個持久的、三維的、可交互的實體空間;第二類路線是Yann LeCun為代表,認(rèn)為世界模型是智能體內(nèi)部的一個模塊,用于在抽象層面預(yù)測后果;第三類路線就是以DeepMind為代表的"視頻即世界",將視頻生成作為世界模型的表現(xiàn)形式。
在王兵看來,到 2026 年行業(yè)對世界模型的理解逐步形成共識:無論是做 VLA 還是世界模型,核心都是底層基模能力。世界模型本質(zhì)上要訓(xùn)練出一個能夠理解并預(yù)測物理世界的大模型,不具備大模型訓(xùn)練能力的公司,很難真正做好這件事。擁有視頻模型訓(xùn)練能力的公司,已經(jīng)具備世界模型訓(xùn)練基礎(chǔ)。從文藝創(chuàng)作類視頻模型拓展具身智能相關(guān)的世界模型,本質(zhì)上是把訓(xùn)練數(shù)據(jù)換成符合物理規(guī)律、面向具體場景的具身數(shù)據(jù),訓(xùn)練方法和工程能力是一脈相承的。真正的關(guān)鍵,是場景數(shù)據(jù)的選擇、規(guī)模和標(biāo)注質(zhì)量。
也因此,具身智能成了智象未來進(jìn)入世界模型的切口。
作為機(jī)器人數(shù)據(jù)公司諾亦騰的創(chuàng)始人,戴若犁思考世界模型相關(guān)的合作和布局已經(jīng)半年多。他很清楚,諾亦騰內(nèi)部雖然有擅長世界模型訓(xùn)練等團(tuán)隊,但訓(xùn)練多模態(tài)基礎(chǔ)模型耗時至少兩個月到三個月,成本千萬級,重復(fù)研發(fā)屬于資源浪費(fèi),因此和視頻模型公司合作,是效率更高的做法。戴若犁說,視頻生成模型和具身智能的核心能力是同一個,那就是預(yù)測。
戴若犁舉個了例子, 假設(shè)你要訓(xùn)練一個機(jī)器人抓取桌上的杯子。傳統(tǒng)的做法是,給機(jī)器人大量的抓取數(shù)據(jù)讓它學(xué)會"看到杯子——伸手——抓住"這個動作序列。但這種方法的問題是,如果杯子的形狀、位置、材質(zhì)發(fā)生變化,機(jī)器人就不知道怎么辦了。
但如果用視頻生成模型的思路,機(jī)器人會先預(yù)測:如果這樣伸手,杯子會怎么動?如果我用這個力度抓,杯子會不會碎?它會在腦子里模擬一遍整個過程,然后選擇最優(yōu)的行動方案。這種能力,就是視頻生成的世界模型帶來的。
諾亦騰的需求很清晰:把動捕數(shù)據(jù)里的視覺缺陷修掉。操作者戴著動捕手套,手套遮住了手部,給后續(xù)訓(xùn)練留下一個視覺盲點(diǎn);測試場景太單一,缺乏多樣性。
戴若犁考察了國內(nèi)合適的合作方,最終敲定和智象未來的合作,除了發(fā)現(xiàn)智象未來也有向具身智能布局的規(guī)劃,“手快”也是這場合作達(dá)成的關(guān)鍵原因。提出需求之后,智象未來就開展 POC 驗證,很快得到積極結(jié)論。
智象未來CTO姚霆負(fù)責(zé)了這場合作,他說之所以“手快”,其實是兩個原因,一是模型能力已經(jīng)到了成熟階段,接到數(shù)據(jù)后很快完成生成,初始精度就達(dá)標(biāo)。二是智象之前做過大量視覺理解任務(wù),這類數(shù)據(jù)生產(chǎn)工作流要生成能力和理解類算法同時到位。
這個合作在2025年初開始落地。智象未來用諾亦騰提供的動作捕捉數(shù)據(jù),訓(xùn)練了一個具身智能的原型模型。這個模型能夠完成抓取、放置、推動、旋轉(zhuǎn)等基礎(chǔ)動作,并且在執(zhí)行任務(wù)時,會自動考慮物理約束。更重要的是,這個模型的泛化能力很強(qiáng)。用杯子訓(xùn)練的模型,能夠直接遷移到抓取其他物體上。這種泛化能力,正是世界模型的核心價值。
做視頻領(lǐng)域的Anthropic
智象未來想成為一家什么樣的公司?梅濤的類比是視頻領(lǐng)域的Anthropic。這個類比的標(biāo)準(zhǔn)是基于ToB的企業(yè)服務(wù),這也是智象未來的商業(yè)模式。這家后起于OpenAI的公司,突破了1.2萬億的估值。
梅濤把大模型賽道分為三層。第一層是大型互聯(lián)網(wǎng)公司,有流量入口、C端用戶,像Google、字節(jié)。第二層是做基礎(chǔ)模型的公司,例如OpenAI的Sora。第三層是做各種agent和垂類應(yīng)用的公司,像Cursor這樣的。
智象未來的定位在第二層和第三層之間——既做模型又做應(yīng)用,模型和應(yīng)用雙輪驅(qū)動。但梅濤很清楚,他們的模型一定不是要做非常通用的模型跟大廠競爭,而是基于自己的場景來優(yōu)化,做有特色的模型。
“大模型的能力有點(diǎn)像海平面,一直在往上漲,很多公司就被淹沒了。”
梅濤用這個比喻來描述AI行業(yè)的變化,那么沒被淹沒的是什么?要么是足夠高的山,要么是隨水而漲的船。智象未來的定位是兩者都做:圖片和視頻模型是一座高山峰,三個場景的Agent 是三艘船:一個是跨境電商的短視頻營銷,另一個是影視制作,還有一個面向?qū)I(yè)級C端用戶的場景,社媒內(nèi)容創(chuàng)作。三種場景,ToB是核心。
“在AI的商業(yè)模式里,最長久、最健康的應(yīng)該一定是企業(yè)服務(wù)。”梅濤說,原因很簡單:企業(yè)客戶的復(fù)購率極高,隨著產(chǎn)品深度的增加,客單價可以不斷提升,其商業(yè)天花板遠(yuǎn)超C端。
至于C端,純工具性的C端產(chǎn)品,用戶新鮮感一過,留存率極低,且Token消耗巨大,價格昂貴。如果無法讓C端用戶大量付費(fèi),這種模式無法形成完整的商業(yè)閉環(huán)。
什么時候數(shù)據(jù)飛輪開始轉(zhuǎn)起來?梅濤說,第一個是跨境電商短視頻營銷。智象未來有一個 agent 專門分析電商平臺上的爆款視頻,把它拆解、重構(gòu)成想要的視頻生成模板,然后復(fù)刻這個模板提供給跨境電商平臺商家使用,每天更新。生成視頻之后,根據(jù)用戶的觀看量反饋去決定是復(fù)刻還是放棄。這個完整鏈路今天已經(jīng)跑起來——一天能支持商家產(chǎn)出做將近50條短視頻廣告。
![]()
智象未來生成的廣告圖 圖片由智象未來提供
第二個是專業(yè)級C 端的創(chuàng)作工具。在不同國家流行不同的模版——在巴西做球星相關(guān)短視頻,在印度做舞蹈動作控制模板。如果不通過用戶反饋,根本不知道這個國家的喜好。現(xiàn)在智象未來面向?qū)I(yè)級C 端的APP 每個月有超過千萬的新增下載量。
第二種模式叫做RaaS(Results as a Service,按結(jié)果付費(fèi)服務(wù)),則展現(xiàn)了AI顛覆傳統(tǒng)商業(yè)模式的巨大潛力。梅濤說,所謂RaaS,就是他們在給客戶提供AI生成服務(wù)的同時,直接為客戶的商業(yè)結(jié)果負(fù)責(zé),客戶愿意按最終的轉(zhuǎn)化結(jié)果來付費(fèi)、甚至是返傭。
這件事聽起來簡單,但智象未來跑了有一年半的時間。“直到2024年的七八月份,我們才真正感覺自己活下來。”梅濤回憶,在最初的一年多里,公司內(nèi)部也在搖擺,最初他們試圖將AI能力打包成標(biāo)準(zhǔn)的SaaS軟件賣給企業(yè)客戶,但很快發(fā)現(xiàn),當(dāng)時的視頻生成工具使用門檻依然很高,不同悟性的使用者,用同樣的軟件生成出來的效果天差地別,“既然效果無法標(biāo)準(zhǔn)化,你就很難給這個軟件制定一個公允的價格,客戶也不愿意買單。”
轉(zhuǎn)折點(diǎn)在2024年夏天悄然降臨。借著Sora發(fā)布后的市場東風(fēng),他們在當(dāng)年5月底推出了一款類似架構(gòu)的商業(yè)化產(chǎn)品。這款產(chǎn)品上線當(dāng)月便斬獲了兩三百萬的月活躍用戶。如今,其付費(fèi)用戶的留存率已穩(wěn)定在50%以上。
2025年年底,隨著應(yīng)用的爆發(fā),多模態(tài)的token消耗量極大,加之Seedance的發(fā)布,視頻模型領(lǐng)域迎來了類似GPT3.5的智能涌現(xiàn)時刻,梅濤發(fā)現(xiàn)公司的估值也出現(xiàn)了明顯的增長。
進(jìn)入智能體的世界
智象未來的Agent戰(zhàn)略,本質(zhì)上是在為兩個世界搭建橋梁:一個是人類創(chuàng)作者的世界,一個是智能體的世界。在人類創(chuàng)作者的世界里,Agent是co-creator,是幫助人類更好地表達(dá)創(chuàng)意的伙伴;在智能體的世界里,Agent是能力提供者,是讓機(jī)器人理解和生成視覺內(nèi)容的基礎(chǔ)設(shè)施。
作為智象未來的CTO,姚霆最近思考最多的事情就是智能體,如何通過智能體放大智象未來的能力?如何為智能體設(shè)計交互?
2026年初,OpenClaw出現(xiàn),這個被稱為"龍蝦"的智能體,定義了一個新概念——co-worker(共同工作伙伴)。 “但我們要在此基礎(chǔ)上升級成co-creator(共同創(chuàng)作者)。”姚霆說。
姚霆對Agent的理解,來自一個更底層的架構(gòu)思考。他用一個公式描述了未來智能化應(yīng)用的范式,未來所有的智能化APP等于Harness(在AI 智能體的世界里,它就是那個讓智能體既能夠發(fā)揮能力,又不會失控的"安全腳手架")乘以一些skills,底層就是OS。
比如在影視創(chuàng)作場景中,一個“分鏡生成”的skill,不僅要能根據(jù)劇本生成畫面,還要理解鏡頭語言、敘事節(jié)奏、情緒表達(dá),甚至要知道不同類型的作品(短劇、廣告、紀(jì)錄片)對分鏡的要求有什么差異。這種深度的行業(yè)理解,不是調(diào)用幾個API就能實現(xiàn)的。
這也是為什么智象未來要自己承接影視作品、自己做短劇、自己服務(wù)營銷客戶,是為了在真實場景中沉淀出不可復(fù)制的能力。姚霆說,未來的skill會像互聯(lián)網(wǎng)時代的網(wǎng)頁一樣多,會有大量的工作需要做——評估、篩選、推薦、組合。姚霆把這些能力分成四層。
第一層是基礎(chǔ)模型能力,以API的形式提供給開發(fā)者,這是智象未來的底座,也是和大廠競爭的基礎(chǔ)。但這一層的競爭會越來越激烈,價格會越來越低,利潤會越來越薄。
第二層是標(biāo)準(zhǔn)化的skill,比如"文生視頻"、"圖生視頻"、"視頻延長",這些是通用的功能模塊,可以被集成到各種應(yīng)用中。這一層的價值在于穩(wěn)定性和易用性,但差異化空間有限。
第三層是行業(yè)定制的skill,比如"短劇分鏡生成"、"產(chǎn)品廣告視頻制作"、"紀(jì)錄片素材生成"。
第四層是完整的工作流,比如"從劇本到成片的短劇生產(chǎn)線"、"從產(chǎn)品圖到投放視頻的營銷自動化",這些工作流串聯(lián)了多個skill,形成了端到端的解決方案。這些skill深度融合了行業(yè)know-how,是智象未來真正的護(hù)城河。
“我們和大廠做通用基礎(chǔ)設(shè)施的路線形成明顯的差異化競爭優(yōu)勢。”姚霆說,這個差異化,就體現(xiàn)在第三層和第四層——那些深度綁定行業(yè)、不可輕易復(fù)制的高價值能力。
另一個讓姚霆更關(guān)注的事情就是交互,這能夠決定產(chǎn)品是否能夠吸引足夠多的用戶。"是用命令行、圖形界面,還是聊天加畫布的形式,甚至是多模態(tài)的聯(lián)動交互。"姚霆說,只要在交互這一個點(diǎn)上實現(xiàn)突破,就能吸引很多用戶。
姚霆和梅濤對視頻模型領(lǐng)域的“Aha moment”有一個共同的判斷:用戶提供一個劇本,系統(tǒng)就能直接生成符合需求的長視頻故事。至于現(xiàn)在,這個“Aha moment”還沒有到。
以下為虎嗅整理的部分訪談?wù)?/strong>
虎嗅:你們做跨境營銷、影視、具身智能……一直在做加法,有沒有做過減法?
梅濤:也做了減法。我們一開始想做游戲,后來發(fā)現(xiàn)游戲這個生意比較難做。大游戲公司想自己建體系;小游戲公司成本要求嚴(yán)格,而且很難把數(shù)據(jù)放到體外,只能私有化部署,很難規(guī)模化,所以果斷放一放。
還有一個慘痛的經(jīng)驗教訓(xùn)——我們做了線下打印店的素材管理,后來發(fā)現(xiàn)打印店本身就是夕陽產(chǎn)業(yè),這些人自己也不確定將來是否還會在這個行業(yè)做下去,學(xué)習(xí)速度也慢。所以我們確實踩了一些坑。
經(jīng)過第四年的探索,基本形成了可以規(guī)模化的三個 ToB 模式:第一是線上線下商業(yè)體的短視頻營銷和服務(wù),軟硬件一體;第二是短劇多人協(xié)作平臺;第三是給全球用戶做的媒體創(chuàng)作工具和平臺。在一段時間內(nèi),我們會在這三個方向上不斷深耕。
虎嗅:現(xiàn)在視頻模型領(lǐng)域還是以Scaling Law為主,對于資源有限的創(chuàng)業(yè)公司,要怎么堆資源和大廠競爭,是靠不斷融資嗎?
姚霆:融資肯定是需要的,但創(chuàng)業(yè)公司的融資體量和大廠相比依然有很大差距,要和大廠競爭主要要做好三點(diǎn):第一是認(rèn)知要快,對模型架構(gòu)、下一代模型的技術(shù)走向和選型判斷要精準(zhǔn),認(rèn)知比大廠超前半個身位甚至3個月就有很大機(jī)會;第二是落地速度快,確定方向后能快速迭代出模型,同步推進(jìn)產(chǎn)品化和商業(yè)化,形成產(chǎn)品或者用戶壁壘;第三是組織架構(gòu)調(diào)整快,創(chuàng)業(yè)公司相比大廠的優(yōu)勢就是靈活性高,組織架構(gòu)扁平、轉(zhuǎn)身快才能應(yīng)對各類產(chǎn)品變化,發(fā)揮自身優(yōu)勢。
虎嗅:如果有一天智象失敗了,你覺得可能是什么原因?
梅濤:可能是認(rèn)知停止迭代了。當(dāng)然這件事我覺得也不太可能發(fā)生,因為每天都在大量接觸新的東西。
虎嗅:怎么定義“認(rèn)知”?
梅濤:認(rèn)知包括對技術(shù)的認(rèn)知、對商業(yè)化的認(rèn)知、對競爭態(tài)勢的認(rèn)知,這包含了各個方面。今天的創(chuàng)業(yè)對創(chuàng)始人要求很高,你要懂技術(shù),有技術(shù)路線的判斷力和前瞻性,還要有商業(yè)化的認(rèn)知、團(tuán)隊健康度的認(rèn)知、資本化的認(rèn)知,基本上要求你是一個六邊形的戰(zhàn)士,不能有短板。
虎嗅:那你現(xiàn)在每天最焦慮的是什么?是融錢的問題嗎?
梅濤:不是錢的問題,也不是人的問題,而是認(rèn)知的問題。我最擔(dān)心的一點(diǎn),是我自己的認(rèn)知迭代不夠快,趕不上行業(yè)的迭代速度;以及團(tuán)隊核心的那些人,認(rèn)知迭代不夠快,甚至不如我快——那就有問題了。創(chuàng)業(yè),你只能掙到自己認(rèn)知范圍之內(nèi)的錢,認(rèn)知范圍之外是一個巨大的陷阱,把我們這幫青蛙陷在井里。我希望大家在認(rèn)知層面上一定要卷起來。
虎嗅:在過去這幾年里,你自己認(rèn)知最大的一次迭代是什么?或者直接推翻過去的認(rèn)知。
梅濤:我覺得我每天都在迭代。Sora這件事對我在技術(shù)認(rèn)知上是一次反省。很簡單,如果相信某一條技術(shù)路線,就應(yīng)該堅持,而不是東試西試。我當(dāng)時其實覺得 DiT 這個方向很好,但沒有下定決心,因為創(chuàng)業(yè)資金和資源有限,沒法多條線試錯。Sora 出來后,我們就堅定走 DiT 的路線。
虎嗅:但你們不是又轉(zhuǎn)向新的UiT架構(gòu)嗎?
梅濤:因為如果光拼數(shù)據(jù)、光拼算力,這不是創(chuàng)業(yè)公司該干的事,要想用更少的成本、更高效的框架達(dá)到下一個階段的效果,創(chuàng)業(yè)公司就必須從架構(gòu)層面重新思考。
這也是我們開始做 UiT 的原因。UiT 不是簡單換一套模型,而是希望從底層把文本、圖像和控制條件統(tǒng)一到同一個模型空間里,讓模型更早、更直接地完成理解、對齊和生成。我們認(rèn)為,這種原生統(tǒng)一的架構(gòu),才是圖像生成繼續(xù)走向視頻生成、乃至世界模型的重要基礎(chǔ)。
虎嗅:那你對于公司未來的發(fā)展最擔(dān)心什么?
梅濤:我最擔(dān)心的地方就是:第一,我的方向不對,沒有前瞻性;第二,我的認(rèn)知成為公司天花板。我有時候會擔(dān)心船員發(fā)現(xiàn)方向不對但不告訴我。我希望每個人都有自己認(rèn)知迭代的角度,哪怕跟我不一樣也要告訴我,讓我有更多觸角去感知方向是否正確。
虎嗅:現(xiàn)在AI領(lǐng)域人才薪酬很高,你們擔(dān)心團(tuán)隊核心成員被“挖角”流失的問題嗎?
姚霆:多少會有壓力,我和團(tuán)隊也說過,大家聚在一起做這件事不是為了錢,如果只看薪資大家都應(yīng)該去大廠。我們的團(tuán)隊成員尤其是模型團(tuán)隊的人,對模型研發(fā)都很癡迷,大家的共識是想在這個領(lǐng)域做出能被記住的成果,比如以后墓志銘能留下自己參與研發(fā)的知名模型的名字。
虎嗅:你自己希望以后世界以什么記住你?
姚霆:我肯定希望能留下因為我而存在的模型的名字,比如后續(xù)我們推出的出色的、被行業(yè)廣泛認(rèn)可的模型,大家提到的時候知道是我參與做的,對我來說就足夠了。
![]()
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4858842.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.