<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      最早做文生視頻的人,開始構(gòu)建世界

      0
      分享至


      出品|虎嗅科技組

      作者|陳伊凡

      編輯|苗正卿

      頭圖|AI生成

      “AI原生100”是虎嗅科技組推出針對AI原生創(chuàng)新欄目,這是本系列的第「54」篇文章。

      “創(chuàng)業(yè)只能掙到自己認(rèn)知范圍內(nèi)的錢,認(rèn)知范圍外是一個巨大的陷阱,把我們這幫青蛙陷在井里。”

      梅濤用這句話來描述創(chuàng)業(yè)公司面臨的挑戰(zhàn)和作為視頻模型生成公司智象未來創(chuàng)始人兼CEO的焦慮,不是技術(shù)不夠強(qiáng),也不是錢不夠多,是認(rèn)知邊界。如何跳出這口井?梅濤的辦法是:自身迭代、團(tuán)隊的碰撞,朋友圈的刺激。

      近日,全球知名獨(dú)立第三方AI模型評測平臺Artificial Analysis的文生圖榜單(Text to Image Leaderboard)更新,HiDream-O1-Image 開源版本躋身文生圖(Text to Image)模型榜單前列,并位列開源模型第一。Artificial Analysis是目前全球公認(rèn)最具權(quán)威性和參考價值的獨(dú)立 AI 基準(zhǔn)測評機(jī)構(gòu)之一,在業(yè)界常被譽(yù)為“AI 領(lǐng)域的 Gartner”。


      Artificial Analysis的文生圖榜單

      走進(jìn)智象未來合肥的辦公室,首先映入眼簾的是一面員工照片墻。所有頭像,都是AIGC生成的動漫風(fēng)格。這家公司的核心業(yè)務(wù)是圖像和視頻生成——AI時代的自己,是他們在智象未來的第一課。


      智象未來合肥辦公室門口的照片墻 圖片由智象未來提供

      梅濤的會客廳,滿墻合影。這是梅濤的朋友圈,也是全球人工智能行業(yè)的半壁江山。隨便指向哪一張,梅濤都能說出來龍去脈——哪年在哪里,當(dāng)時聊了什么,那個人后來去了哪里。微軟的同事,京東的伙伴,投資人,行業(yè)里來來往往的導(dǎo)師、朋友和合作伙伴……照片背后的故事,他細(xì)數(shù)家珍。


      梅濤在世界人工智能大會上發(fā)言 圖片由智象未來提供

      智象未來成立四年,從圖像、視頻生成到原生全模態(tài)世界模型,從工具到co-creator,從DIT架構(gòu)迭代到UiT架構(gòu),每一次轉(zhuǎn)向都是對原有認(rèn)知的突破。(虎嗅注:以 Sora 為代表的 DiT架構(gòu),它將圖像或視頻拆解為大量細(xì)小單元,并統(tǒng)一推演它們之間的關(guān)系,因此能夠生成細(xì)節(jié)豐富、視覺沖擊力強(qiáng)的結(jié)果。UiT思路則是將文本 Token、視覺信息和控制條件納入同一個模型空間,由統(tǒng)一 Transformer 直接完成對齊、理解與生成。簡言之,UiT能讓理解與生成更統(tǒng)一。)

      智象未來這次的就是用UiT架構(gòu),將8B參數(shù)的模型打出了超出56B模型的效果。

      對于普通用戶來說,直接感受到的結(jié)果就是:模型更能理解用戶想要什么,生成效果更穩(wěn)定,復(fù)雜修改也更容易一次完成。

      我們聊天的時點(diǎn),恰逢視頻生成模型賽道加速升溫的時間節(jié)點(diǎn)和拐點(diǎn)。年初,Seedance2.0把AI視頻生成從“能用”推向“可控且可規(guī)模化”。近日,快手計劃分拆旗下視頻生成大模型業(yè)務(wù)可靈 AI,并以約 200 億美元估值尋求融資。商業(yè)化、資本化與模型能力同步提速,意味著視頻生成正成為生成式 AI 的核心戰(zhàn)場。

      與此同時,初創(chuàng)公司也出現(xiàn)了分化,除了智象未來,還有愛詩科技、生數(shù)科技這樣的頭部公司,資本和用戶都在涌入,格局也在固化。

      在這場競爭中,智象未來不是融資最多的,也不是體量最大的。東方富海合伙人王兵選擇智象未來,看中的是這家公司強(qiáng)大且穩(wěn)定的底層技術(shù)班底。梅濤本身,就是視頻生成的開創(chuàng)者,2017年,梅濤是全球第一篇文生視頻論文的作者。智象未來這么多年,該論文的核心研究者都沒有離職,極其穩(wěn)定。“最終能融到持續(xù)多資金的公司,一定是人才密度最高的公司,這是所有行業(yè)通律。”王兵說。

      與此同時,另一個重要的賽道正在向視頻模型公司打開——具身智能世界模型,新的錢也開始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3億美金種子輪,估值35億美元;李飛飛的World Labs在2026年2月完成了10億美元融資,估值飆升至50億美元。2026年年初至今,已經(jīng)有超過13億美元流向世界模型賽道。

      當(dāng)越來越多公司開始說世界模型時,我問梅濤,智象未來提出這個概念,是為了講故事嗎?梅濤說不是,早在 2022 年,他已經(jīng)帶著團(tuán)隊在京東亞洲一號物流倉里研究如何讓機(jī)器人如何穩(wěn)態(tài)運(yùn)營識別海量的包裹分揀,創(chuàng)業(yè)之初也在具身智能和視覺生成兩個方向之間深度思考過,最終選擇了視覺生成賽道,而2024年,智象未來內(nèi)部已經(jīng)在討論世界模型,“做視頻生成模型的這波人,是最有可能把世界模型做成。”

      智象未來CTO姚霆說,智象的核心邏輯是做視覺創(chuàng)作,核心是解決創(chuàng)作本身的問題。這也是智象決定開展不同業(yè)務(wù)的底層邏輯。不管是面向影視、營銷行業(yè)做創(chuàng)作,還是給機(jī)器人做相關(guān)內(nèi)容創(chuàng)作,都屬于創(chuàng)作。在服務(wù)不同行業(yè)的過程中,會沉淀對應(yīng)的行業(yè)know-how,將其轉(zhuǎn)化為相關(guān)功能,未來隨著智能體發(fā)展,還可以沉淀為具備行業(yè)屬性的skill。

      虎嗅交流了智象未來的創(chuàng)始人兼CEO梅濤、CTO姚霆、東方富海合伙人王兵以及諾亦騰創(chuàng)始人戴若犁,試圖還原在新技術(shù)浪潮到來之時,一家以創(chuàng)作為主線的初創(chuàng)公司如何建構(gòu)新的世界。

      世界模型:視覺生成模型公司的新故事和底牌

      在一場智象未來的內(nèi)部討論會上,梅濤他們在白板上用不同顏色的筆寫了團(tuán)隊對于世界模型的理解,其中特別用紅色的筆寫下“mold the world”——建模這個世界的同時,構(gòu)建世界。

      在梅濤的思考中,世界模型需要三個要素:第一,能夠?qū)W會各種模態(tài)的表達(dá),能夠?qū)φ麄€世界進(jìn)行建模;第二,能夠結(jié)合物理規(guī)律和因果關(guān)系進(jìn)行推理,“Reason the world”;第三,能夠把物理世界按照想象重建出來,也就是“mold the world”。

      如今,對于世界模型的定義有三類,第一類路線是以李飛飛的World Labs為代表,核心理念是指一種空間智能,他們認(rèn)為世界模型應(yīng)該構(gòu)建一個持久的、三維的、可交互的實體空間;第二類路線是Yann LeCun為代表,認(rèn)為世界模型是智能體內(nèi)部的一個模塊,用于在抽象層面預(yù)測后果;第三類路線就是以DeepMind為代表的"視頻即世界",將視頻生成作為世界模型的表現(xiàn)形式。

      在王兵看來,到 2026 年行業(yè)對世界模型的理解逐步形成共識:無論是做 VLA 還是世界模型,核心都是底層基模能力。世界模型本質(zhì)上要訓(xùn)練出一個能夠理解并預(yù)測物理世界的大模型,不具備大模型訓(xùn)練能力的公司,很難真正做好這件事。擁有視頻模型訓(xùn)練能力的公司,已經(jīng)具備世界模型訓(xùn)練基礎(chǔ)。從文藝創(chuàng)作類視頻模型拓展具身智能相關(guān)的世界模型,本質(zhì)上是把訓(xùn)練數(shù)據(jù)換成符合物理規(guī)律、面向具體場景的具身數(shù)據(jù),訓(xùn)練方法和工程能力是一脈相承的。真正的關(guān)鍵,是場景數(shù)據(jù)的選擇、規(guī)模和標(biāo)注質(zhì)量。

      也因此,具身智能成了智象未來進(jìn)入世界模型的切口。

      作為機(jī)器人數(shù)據(jù)公司諾亦騰的創(chuàng)始人,戴若犁思考世界模型相關(guān)的合作和布局已經(jīng)半年多。他很清楚,諾亦騰內(nèi)部雖然有擅長世界模型訓(xùn)練等團(tuán)隊,但訓(xùn)練多模態(tài)基礎(chǔ)模型耗時至少兩個月到三個月,成本千萬級,重復(fù)研發(fā)屬于資源浪費(fèi),因此和視頻模型公司合作,是效率更高的做法。戴若犁說,視頻生成模型和具身智能的核心能力是同一個,那就是預(yù)測。

      戴若犁舉個了例子, 假設(shè)你要訓(xùn)練一個機(jī)器人抓取桌上的杯子。傳統(tǒng)的做法是,給機(jī)器人大量的抓取數(shù)據(jù)讓它學(xué)會"看到杯子——伸手——抓住"這個動作序列。但這種方法的問題是,如果杯子的形狀、位置、材質(zhì)發(fā)生變化,機(jī)器人就不知道怎么辦了。

      但如果用視頻生成模型的思路,機(jī)器人會先預(yù)測:如果這樣伸手,杯子會怎么動?如果我用這個力度抓,杯子會不會碎?它會在腦子里模擬一遍整個過程,然后選擇最優(yōu)的行動方案。這種能力,就是視頻生成的世界模型帶來的。

      諾亦騰的需求很清晰:把動捕數(shù)據(jù)里的視覺缺陷修掉。操作者戴著動捕手套,手套遮住了手部,給后續(xù)訓(xùn)練留下一個視覺盲點(diǎn);測試場景太單一,缺乏多樣性。

      戴若犁考察了國內(nèi)合適的合作方,最終敲定和智象未來的合作,除了發(fā)現(xiàn)智象未來也有向具身智能布局的規(guī)劃,“手快”也是這場合作達(dá)成的關(guān)鍵原因。提出需求之后,智象未來就開展 POC 驗證,很快得到積極結(jié)論。

      智象未來CTO姚霆負(fù)責(zé)了這場合作,他說之所以“手快”,其實是兩個原因,一是模型能力已經(jīng)到了成熟階段,接到數(shù)據(jù)后很快完成生成,初始精度就達(dá)標(biāo)。二是智象之前做過大量視覺理解任務(wù),這類數(shù)據(jù)生產(chǎn)工作流要生成能力和理解類算法同時到位。

      這個合作在2025年初開始落地。智象未來用諾亦騰提供的動作捕捉數(shù)據(jù),訓(xùn)練了一個具身智能的原型模型。這個模型能夠完成抓取、放置、推動、旋轉(zhuǎn)等基礎(chǔ)動作,并且在執(zhí)行任務(wù)時,會自動考慮物理約束。更重要的是,這個模型的泛化能力很強(qiáng)。用杯子訓(xùn)練的模型,能夠直接遷移到抓取其他物體上。這種泛化能力,正是世界模型的核心價值。


      做視頻領(lǐng)域的Anthropic

      智象未來想成為一家什么樣的公司?梅濤的類比是視頻領(lǐng)域的Anthropic。這個類比的標(biāo)準(zhǔn)是基于ToB的企業(yè)服務(wù),這也是智象未來的商業(yè)模式。這家后起于OpenAI的公司,突破了1.2萬億的估值。

      梅濤把大模型賽道分為三層。第一層是大型互聯(lián)網(wǎng)公司,有流量入口、C端用戶,像Google、字節(jié)。第二層是做基礎(chǔ)模型的公司,例如OpenAI的Sora。第三層是做各種agent和垂類應(yīng)用的公司,像Cursor這樣的。

      智象未來的定位在第二層和第三層之間——既做模型又做應(yīng)用,模型和應(yīng)用雙輪驅(qū)動。但梅濤很清楚,他們的模型一定不是要做非常通用的模型跟大廠競爭,而是基于自己的場景來優(yōu)化,做有特色的模型。

      “大模型的能力有點(diǎn)像海平面,一直在往上漲,很多公司就被淹沒了。”

      梅濤用這個比喻來描述AI行業(yè)的變化,那么沒被淹沒的是什么?要么是足夠高的山,要么是隨水而漲的船。智象未來的定位是兩者都做:圖片和視頻模型是一座高山峰,三個場景的Agent 是三艘船:一個是跨境電商的短視頻營銷,另一個是影視制作,還有一個面向?qū)I(yè)級C端用戶的場景,社媒內(nèi)容創(chuàng)作。三種場景,ToB是核心。

      “在AI的商業(yè)模式里,最長久、最健康的應(yīng)該一定是企業(yè)服務(wù)。”梅濤說,原因很簡單:企業(yè)客戶的復(fù)購率極高,隨著產(chǎn)品深度的增加,客單價可以不斷提升,其商業(yè)天花板遠(yuǎn)超C端。

      至于C端,純工具性的C端產(chǎn)品,用戶新鮮感一過,留存率極低,且Token消耗巨大,價格昂貴。如果無法讓C端用戶大量付費(fèi),這種模式無法形成完整的商業(yè)閉環(huán)。

      什么時候數(shù)據(jù)飛輪開始轉(zhuǎn)起來?梅濤說,第一個是跨境電商短視頻營銷。智象未來有一個 agent 專門分析電商平臺上的爆款視頻,把它拆解、重構(gòu)成想要的視頻生成模板,然后復(fù)刻這個模板提供給跨境電商平臺商家使用,每天更新。生成視頻之后,根據(jù)用戶的觀看量反饋去決定是復(fù)刻還是放棄。這個完整鏈路今天已經(jīng)跑起來——一天能支持商家產(chǎn)出做將近50條短視頻廣告。


      智象未來生成的廣告圖 圖片由智象未來提供

      第二個是專業(yè)級C 端的創(chuàng)作工具。在不同國家流行不同的模版——在巴西做球星相關(guān)短視頻,在印度做舞蹈動作控制模板。如果不通過用戶反饋,根本不知道這個國家的喜好。現(xiàn)在智象未來面向?qū)I(yè)級C 端的APP 每個月有超過千萬的新增下載量。

      第二種模式叫做RaaS(Results as a Service,按結(jié)果付費(fèi)服務(wù)),則展現(xiàn)了AI顛覆傳統(tǒng)商業(yè)模式的巨大潛力。梅濤說,所謂RaaS,就是他們在給客戶提供AI生成服務(wù)的同時,直接為客戶的商業(yè)結(jié)果負(fù)責(zé),客戶愿意按最終的轉(zhuǎn)化結(jié)果來付費(fèi)、甚至是返傭。

      這件事聽起來簡單,但智象未來跑了有一年半的時間。“直到2024年的七八月份,我們才真正感覺自己活下來。”梅濤回憶,在最初的一年多里,公司內(nèi)部也在搖擺,最初他們試圖將AI能力打包成標(biāo)準(zhǔn)的SaaS軟件賣給企業(yè)客戶,但很快發(fā)現(xiàn),當(dāng)時的視頻生成工具使用門檻依然很高,不同悟性的使用者,用同樣的軟件生成出來的效果天差地別,“既然效果無法標(biāo)準(zhǔn)化,你就很難給這個軟件制定一個公允的價格,客戶也不愿意買單。”

      轉(zhuǎn)折點(diǎn)在2024年夏天悄然降臨。借著Sora發(fā)布后的市場東風(fēng),他們在當(dāng)年5月底推出了一款類似架構(gòu)的商業(yè)化產(chǎn)品。這款產(chǎn)品上線當(dāng)月便斬獲了兩三百萬的月活躍用戶。如今,其付費(fèi)用戶的留存率已穩(wěn)定在50%以上。

      2025年年底,隨著應(yīng)用的爆發(fā),多模態(tài)的token消耗量極大,加之Seedance的發(fā)布,視頻模型領(lǐng)域迎來了類似GPT3.5的智能涌現(xiàn)時刻,梅濤發(fā)現(xiàn)公司的估值也出現(xiàn)了明顯的增長。


      進(jìn)入智能體的世界

      智象未來的Agent戰(zhàn)略,本質(zhì)上是在為兩個世界搭建橋梁:一個是人類創(chuàng)作者的世界,一個是智能體的世界。在人類創(chuàng)作者的世界里,Agent是co-creator,是幫助人類更好地表達(dá)創(chuàng)意的伙伴;在智能體的世界里,Agent是能力提供者,是讓機(jī)器人理解和生成視覺內(nèi)容的基礎(chǔ)設(shè)施。

      作為智象未來的CTO,姚霆最近思考最多的事情就是智能體,如何通過智能體放大智象未來的能力?如何為智能體設(shè)計交互?

      2026年初,OpenClaw出現(xiàn),這個被稱為"龍蝦"的智能體,定義了一個新概念——co-worker(共同工作伙伴)。 “但我們要在此基礎(chǔ)上升級成co-creator(共同創(chuàng)作者)。”姚霆說。

      姚霆對Agent的理解,來自一個更底層的架構(gòu)思考。他用一個公式描述了未來智能化應(yīng)用的范式,未來所有的智能化APP等于Harness(在AI 智能體的世界里,它就是那個讓智能體既能夠發(fā)揮能力,又不會失控的"安全腳手架")乘以一些skills,底層就是OS。

      比如在影視創(chuàng)作場景中,一個“分鏡生成”的skill,不僅要能根據(jù)劇本生成畫面,還要理解鏡頭語言、敘事節(jié)奏、情緒表達(dá),甚至要知道不同類型的作品(短劇、廣告、紀(jì)錄片)對分鏡的要求有什么差異。這種深度的行業(yè)理解,不是調(diào)用幾個API就能實現(xiàn)的。

      這也是為什么智象未來要自己承接影視作品、自己做短劇、自己服務(wù)營銷客戶,是為了在真實場景中沉淀出不可復(fù)制的能力。姚霆說,未來的skill會像互聯(lián)網(wǎng)時代的網(wǎng)頁一樣多,會有大量的工作需要做——評估、篩選、推薦、組合。姚霆把這些能力分成四層。

      第一層是基礎(chǔ)模型能力,以API的形式提供給開發(fā)者,這是智象未來的底座,也是和大廠競爭的基礎(chǔ)。但這一層的競爭會越來越激烈,價格會越來越低,利潤會越來越薄。

      第二層是標(biāo)準(zhǔn)化的skill,比如"文生視頻"、"圖生視頻"、"視頻延長",這些是通用的功能模塊,可以被集成到各種應(yīng)用中。這一層的價值在于穩(wěn)定性和易用性,但差異化空間有限。

      第三層是行業(yè)定制的skill,比如"短劇分鏡生成"、"產(chǎn)品廣告視頻制作"、"紀(jì)錄片素材生成"。

      第四層是完整的工作流,比如"從劇本到成片的短劇生產(chǎn)線"、"從產(chǎn)品圖到投放視頻的營銷自動化",這些工作流串聯(lián)了多個skill,形成了端到端的解決方案。這些skill深度融合了行業(yè)know-how,是智象未來真正的護(hù)城河。

      “我們和大廠做通用基礎(chǔ)設(shè)施的路線形成明顯的差異化競爭優(yōu)勢。”姚霆說,這個差異化,就體現(xiàn)在第三層和第四層——那些深度綁定行業(yè)、不可輕易復(fù)制的高價值能力。

      另一個讓姚霆更關(guān)注的事情就是交互,這能夠決定產(chǎn)品是否能夠吸引足夠多的用戶。"是用命令行、圖形界面,還是聊天加畫布的形式,甚至是多模態(tài)的聯(lián)動交互。"姚霆說,只要在交互這一個點(diǎn)上實現(xiàn)突破,就能吸引很多用戶。

      姚霆和梅濤對視頻模型領(lǐng)域的“Aha moment”有一個共同的判斷:用戶提供一個劇本,系統(tǒng)就能直接生成符合需求的長視頻故事。至于現(xiàn)在,這個“Aha moment”還沒有到。

      以下為虎嗅整理的部分訪談?wù)?/strong>

      虎嗅:你們做跨境營銷、影視、具身智能……一直在做加法,有沒有做過減法?

      梅濤:也做了減法。我們一開始想做游戲,后來發(fā)現(xiàn)游戲這個生意比較難做。大游戲公司想自己建體系;小游戲公司成本要求嚴(yán)格,而且很難把數(shù)據(jù)放到體外,只能私有化部署,很難規(guī)模化,所以果斷放一放。

      還有一個慘痛的經(jīng)驗教訓(xùn)——我們做了線下打印店的素材管理,后來發(fā)現(xiàn)打印店本身就是夕陽產(chǎn)業(yè),這些人自己也不確定將來是否還會在這個行業(yè)做下去,學(xué)習(xí)速度也慢。所以我們確實踩了一些坑。

      經(jīng)過第四年的探索,基本形成了可以規(guī)模化的三個 ToB 模式:第一是線上線下商業(yè)體的短視頻營銷和服務(wù),軟硬件一體;第二是短劇多人協(xié)作平臺;第三是給全球用戶做的媒體創(chuàng)作工具和平臺。在一段時間內(nèi),我們會在這三個方向上不斷深耕。

      虎嗅:現(xiàn)在視頻模型領(lǐng)域還是以Scaling Law為主,對于資源有限的創(chuàng)業(yè)公司,要怎么堆資源和大廠競爭,是靠不斷融資嗎?

      姚霆:融資肯定是需要的,但創(chuàng)業(yè)公司的融資體量和大廠相比依然有很大差距,要和大廠競爭主要要做好三點(diǎn):第一是認(rèn)知要快,對模型架構(gòu)、下一代模型的技術(shù)走向和選型判斷要精準(zhǔn),認(rèn)知比大廠超前半個身位甚至3個月就有很大機(jī)會;第二是落地速度快,確定方向后能快速迭代出模型,同步推進(jìn)產(chǎn)品化和商業(yè)化,形成產(chǎn)品或者用戶壁壘;第三是組織架構(gòu)調(diào)整快,創(chuàng)業(yè)公司相比大廠的優(yōu)勢就是靈活性高,組織架構(gòu)扁平、轉(zhuǎn)身快才能應(yīng)對各類產(chǎn)品變化,發(fā)揮自身優(yōu)勢。

      虎嗅:如果有一天智象失敗了,你覺得可能是什么原因?

      梅濤:可能是認(rèn)知停止迭代了。當(dāng)然這件事我覺得也不太可能發(fā)生,因為每天都在大量接觸新的東西。

      虎嗅:怎么定義“認(rèn)知”?

      梅濤:認(rèn)知包括對技術(shù)的認(rèn)知、對商業(yè)化的認(rèn)知、對競爭態(tài)勢的認(rèn)知,這包含了各個方面。今天的創(chuàng)業(yè)對創(chuàng)始人要求很高,你要懂技術(shù),有技術(shù)路線的判斷力和前瞻性,還要有商業(yè)化的認(rèn)知、團(tuán)隊健康度的認(rèn)知、資本化的認(rèn)知,基本上要求你是一個六邊形的戰(zhàn)士,不能有短板。

      虎嗅:那你現(xiàn)在每天最焦慮的是什么?是融錢的問題嗎?

      梅濤:不是錢的問題,也不是人的問題,而是認(rèn)知的問題。我最擔(dān)心的一點(diǎn),是我自己的認(rèn)知迭代不夠快,趕不上行業(yè)的迭代速度;以及團(tuán)隊核心的那些人,認(rèn)知迭代不夠快,甚至不如我快——那就有問題了。創(chuàng)業(yè),你只能掙到自己認(rèn)知范圍之內(nèi)的錢,認(rèn)知范圍之外是一個巨大的陷阱,把我們這幫青蛙陷在井里。我希望大家在認(rèn)知層面上一定要卷起來。

      虎嗅:在過去這幾年里,你自己認(rèn)知最大的一次迭代是什么?或者直接推翻過去的認(rèn)知。

      梅濤:我覺得我每天都在迭代。Sora這件事對我在技術(shù)認(rèn)知上是一次反省。很簡單,如果相信某一條技術(shù)路線,就應(yīng)該堅持,而不是東試西試。我當(dāng)時其實覺得 DiT 這個方向很好,但沒有下定決心,因為創(chuàng)業(yè)資金和資源有限,沒法多條線試錯。Sora 出來后,我們就堅定走 DiT 的路線。

      虎嗅:但你們不是又轉(zhuǎn)向新的UiT架構(gòu)嗎?

      梅濤:因為如果光拼數(shù)據(jù)、光拼算力,這不是創(chuàng)業(yè)公司該干的事,要想用更少的成本、更高效的框架達(dá)到下一個階段的效果,創(chuàng)業(yè)公司就必須從架構(gòu)層面重新思考。

      這也是我們開始做 UiT 的原因。UiT 不是簡單換一套模型,而是希望從底層把文本、圖像和控制條件統(tǒng)一到同一個模型空間里,讓模型更早、更直接地完成理解、對齊和生成。我們認(rèn)為,這種原生統(tǒng)一的架構(gòu),才是圖像生成繼續(xù)走向視頻生成、乃至世界模型的重要基礎(chǔ)。

      虎嗅:那你對于公司未來的發(fā)展最擔(dān)心什么?

      梅濤:我最擔(dān)心的地方就是:第一,我的方向不對,沒有前瞻性;第二,我的認(rèn)知成為公司天花板。我有時候會擔(dān)心船員發(fā)現(xiàn)方向不對但不告訴我。我希望每個人都有自己認(rèn)知迭代的角度,哪怕跟我不一樣也要告訴我,讓我有更多觸角去感知方向是否正確。

      虎嗅:現(xiàn)在AI領(lǐng)域人才薪酬很高,你們擔(dān)心團(tuán)隊核心成員被“挖角”流失的問題嗎?

      姚霆:多少會有壓力,我和團(tuán)隊也說過,大家聚在一起做這件事不是為了錢,如果只看薪資大家都應(yīng)該去大廠。我們的團(tuán)隊成員尤其是模型團(tuán)隊的人,對模型研發(fā)都很癡迷,大家的共識是想在這個領(lǐng)域做出能被記住的成果,比如以后墓志銘能留下自己參與研發(fā)的知名模型的名字。

      虎嗅:你自己希望以后世界以什么記住你?

      姚霆:我肯定希望能留下因為我而存在的模型的名字,比如后續(xù)我們推出的出色的、被行業(yè)廣泛認(rèn)可的模型,大家提到的時候知道是我參與做的,對我來說就足夠了。


      本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4858842.html?f=wyxwapp

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      山東5.4萬個村!不拆房不搬家不合村并居,這次要抱團(tuán)賺大錢了

      山東5.4萬個村!不拆房不搬家不合村并居,這次要抱團(tuán)賺大錢了

      小影的娛樂
      2026-05-17 16:12:48
      殺瘋了!第5冠!張雪機(jī)車橫掃聯(lián)賽,徹底撕破歐美日37年壟斷!

      殺瘋了!第5冠!張雪機(jī)車橫掃聯(lián)賽,徹底撕破歐美日37年壟斷!

      大稻網(wǎng)絡(luò)科技
      2026-05-17 21:16:18
      蟬聯(lián)MVP,Shams:亞歷山大本賽季多項數(shù)據(jù)創(chuàng)造歷史級別紀(jì)錄

      蟬聯(lián)MVP,Shams:亞歷山大本賽季多項數(shù)據(jù)創(chuàng)造歷史級別紀(jì)錄

      懂球帝
      2026-05-18 00:27:32
      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

      番外行
      2026-05-16 15:41:17
      最近李晨的瓜,有點(diǎn)大

      最近李晨的瓜,有點(diǎn)大

      黎兜兜
      2026-05-15 15:29:18
      去年休賽期千萬級別引援!前男籃集訓(xùn)國手后衛(wèi)被上海主帥遺忘

      去年休賽期千萬級別引援!前男籃集訓(xùn)國手后衛(wèi)被上海主帥遺忘

      狼叔評論
      2026-05-18 01:58:16
      任正非論AI:一位工業(yè)哲學(xué)家的清醒與遠(yuǎn)見

      任正非論AI:一位工業(yè)哲學(xué)家的清醒與遠(yuǎn)見

      新浪財經(jīng)
      2026-05-17 00:29:09
      《鏢人》大賺14億后,吳京一口氣籌備10部大片,再救市場一把

      《鏢人》大賺14億后,吳京一口氣籌備10部大片,再救市場一把

      凡知
      2026-05-17 19:32:49
      從風(fēng)塵女子到海盜女王:逐漸遺忘的一個中國女人,被西方尊為偉人

      從風(fēng)塵女子到海盜女王:逐漸遺忘的一個中國女人,被西方尊為偉人

      文史達(dá)觀
      2026-05-09 18:24:16
      丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發(fā)生意外

      丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發(fā)生意外

      溫情郵局
      2025-03-26 11:58:52
      花探唐先生們作品里面的女生空姐和學(xué)生緣何占大多數(shù)?

      花探唐先生們作品里面的女生空姐和學(xué)生緣何占大多數(shù)?

      挪威森林
      2026-05-16 13:12:22
      全網(wǎng)羨慕馬斯克小兒子,卻少有人知道,他還有3個自閉癥孩子!

      全網(wǎng)羨慕馬斯克小兒子,卻少有人知道,他還有3個自閉癥孩子!

      大米和小米
      2026-05-16 18:34:04
      《主角》胡三元出獄大變天,惡領(lǐng)導(dǎo)下臺,易青娥熬成頂流臺柱子

      《主角》胡三元出獄大變天,惡領(lǐng)導(dǎo)下臺,易青娥熬成頂流臺柱子

      慫熊劇場
      2026-05-16 06:45:57
      諾蘭用黑人演古希臘美女海倫遭馬斯克怒撕

      諾蘭用黑人演古希臘美女海倫遭馬斯克怒撕

      名人茍或
      2026-05-18 07:03:30
      你見過多少賭博做局內(nèi)幕?網(wǎng)友:全是精心套路,根本贏不了

      你見過多少賭博做局內(nèi)幕?網(wǎng)友:全是精心套路,根本贏不了

      另子維愛讀史
      2026-05-13 07:43:50
      簡直自取其辱!中國軍人與特朗普轉(zhuǎn)機(jī)同框火爆外網(wǎng),美軍也來學(xué)

      簡直自取其辱!中國軍人與特朗普轉(zhuǎn)機(jī)同框火爆外網(wǎng),美軍也來學(xué)

      胖福的小木屋
      2026-05-16 23:55:24
      炸翻英超!8000萬全能中場示好曼聯(lián),阿森納慌到坐不住!

      炸翻英超!8000萬全能中場示好曼聯(lián),阿森納慌到坐不住!

      林子說事
      2026-05-17 08:20:36
      逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

      逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

      拳擊時空
      2026-05-18 05:37:01
      Kindle彩屏版對比:多花30美元值不值?

      Kindle彩屏版對比:多花30美元值不值?

      硬核玩家2哈
      2026-05-17 04:41:03
      何超儀曝姐姐何超蕸真正死因:她全身都是癌,突然離世無法留遺言

      何超儀曝姐姐何超蕸真正死因:她全身都是癌,突然離世無法留遺言

      八卦寶寶
      2026-05-17 16:52:47
      2026-05-18 07:44:49
      虎嗅APP incentive-icons
      虎嗅APP
      個性化商業(yè)資訊與觀點(diǎn)交流平臺
      26314文章數(shù) 687734關(guān)注度
      往期回顧 全部

      科技要聞

      三大運(yùn)營商即將免月租?多方回應(yīng)

      頭條要聞

      外媒:中國電動汽車即將登陸加拿大 經(jīng)銷商等不及了

      頭條要聞

      外媒:中國電動汽車即將登陸加拿大 經(jīng)銷商等不及了

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認(rèn)識到問題嚴(yán)重性!

      財經(jīng)要聞

      長鑫科技 預(yù)計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預(yù)售權(quán)益價18.89萬起

      態(tài)度原創(chuàng)

      本地
      旅游
      親子
      游戲
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      從打卡參觀到深耕內(nèi)涵,青年與博物館雙向奔赴

      親子要聞

      小腳丫的倔強(qiáng)!萌娃展示超絕一字馬技能 #睡個好覺

      魔壇節(jié)奏丨古樹杯120隊遭絕平,中國退役WCG冠軍獲Blizzcon邀請

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 女人裸体性做爰视频| 蜜桃无码一区二区三区| 亚洲AV无码东方伊甸园| 亚洲久久久久久| 老司机永久免费视频网站在线观看| 色狠狠色噜噜AV一区| 久久久久久久久久久久| 一本色道久久综合亚洲精品不卡| 久久精品人人槡人妻人人玩| 久久99av无色码人妻蜜柚| 国产一区二区av天堂热| 亚洲午夜精品一区二区三区| 欧美国产激情18| 国产亚洲精品麻豆一区二区| 99福利一区二区视频| a毛片免费观看| 丰满人妻在公车被猛烈进入电影| 秋霞在线观看秋| 日韩亚洲国产中文永久一二三| 精品精品国产欧美在线小说区| 中文字幕一区二区人妻电影| 亚洲人成无码www久久久| 日本在线观看| 亚洲无码五区| 亚洲精品无码久久久久sm| 亚洲精品鲁一鲁一区二区三区| 在线观看成人永久免费网站| 五月。。激情綜合老漢色| 丰满熟妇乱又伦在线无码视频| 午夜三级成人在线观看| 精品72久久久久久久中文字幕| 国产成人午夜福利院| 国产极品尤物粉嫩在线观看| 国产精品女人精品久久久天天| 国产成人精品一区二三区在线| 亚洲亚洲中文字幕无线码| 日本最新免费二区| 国产精品成人无码久久久| 久草国产手机视频在线观看| 久久99热这里只有精品国产| 成人午夜激情在线观看|