![]()
文|魏琳華
編|王一粟
越到春節(jié)越熱鬧,2月接近過(guò)半,全球AI行業(yè)迎來(lái)了一個(gè)忙碌的“超級(jí)發(fā)布月”。
海外御三家先后參戰(zhàn),先是OpenAI和Anthropic撞檔期,前后腳發(fā)布了GPT 5.3 codex和Claude Opus 4.6,隔了幾天,Google把Deep Think端了上來(lái);國(guó)內(nèi),兩家上市的六小虎智譜、MiniMax發(fā)模型,視頻領(lǐng)域,快手的可靈3.0和字節(jié)的Seedance對(duì)打。真是好不熱鬧。
在這場(chǎng)模型對(duì)決中,字節(jié)算得上是本周掀起最大熱度的一家參戰(zhàn)者。不說(shuō)Seedance 2.0的破圈效應(yīng),在發(fā)模型的力度上,字節(jié)本周一口氣把視頻、圖片生成和大語(yǔ)言模型全都放了出來(lái),每個(gè)領(lǐng)域都在刷存在感。
回顧這兩年,其實(shí)在大語(yǔ)言模型的領(lǐng)域,字節(jié)的存在感顯然不如視頻、圖文等多模態(tài)領(lǐng)域更強(qiáng),但豆包卻成了AI入口之爭(zhēng)中表現(xiàn)最好的產(chǎn)品。
事事?tīng)?zhēng)先的字節(jié),目標(biāo)一定是全領(lǐng)域覆蓋。所以這次的豆包2.0大模型(Seed 2.0),也是有備而來(lái)。
豆包之所以領(lǐng)先,靠的不僅僅是字節(jié)系流量的灌溉,更關(guān)鍵的是找對(duì)了用戶想玩的場(chǎng)景。比如最近刷視頻,天天都能刷到豆包指點(diǎn)人類穿搭。
所以在大語(yǔ)言模型的優(yōu)化上,豆包的進(jìn)展也延續(xù)了場(chǎng)景思路,重點(diǎn)在兩個(gè)方向:一是繼續(xù)在多模態(tài)能力上發(fā)光發(fā)熱,二是為了火山引擎做鋪墊,優(yōu)化了Agent相關(guān)能力,讓它在企業(yè)端更好用。
字節(jié)的AI野心,正在隨著模型能力的補(bǔ)全緩緩展開(kāi)。
進(jìn)化靠場(chǎng)景:左手多模態(tài)、右手抓Agent
可以說(shuō),Seed 2.0更新最亮眼的能力,就是多模態(tài)的進(jìn)化。
在官方曬出取得成績(jī)的一系列領(lǐng)域中,一部分功勞就要?dú)w到視覺(jué)理解能力身上。以數(shù)學(xué)領(lǐng)域?yàn)槔止?jié)超過(guò)海外多個(gè)閉源大模型的其中兩個(gè)指標(biāo)MathVista、MathVision,這兩者重點(diǎn)考察模型對(duì)包含視覺(jué)信息的數(shù)學(xué)問(wèn)題的理解能力——也就是模型不僅得數(shù)學(xué)好,還得“看”得明白。
![]()
除了視覺(jué)推理,在視頻場(chǎng)景的理解上,Seed 2.0的表現(xiàn)也相對(duì)突出。在官方演示中,它能通過(guò)對(duì)于時(shí)間、運(yùn)動(dòng)感知的理解,讓大模型看明白視頻中的內(nèi)容。比如吃透臺(tái)球的走位、推測(cè)擊打臺(tái)球的位置。
不難想象,這個(gè)功能如果后期和視頻通話進(jìn)行聯(lián)動(dòng),豆包又能做出來(lái)多少出圈視頻。
多模態(tài)能力的加強(qiáng),也讓Seed 2.0優(yōu)化了一些在現(xiàn)實(shí)中更剛需的場(chǎng)景。豆包不僅僅是基于用戶需求優(yōu)化,字節(jié)在做模型的思路上,也同樣是朝著場(chǎng)景落地來(lái)做優(yōu)化。
在Seed 2.0文檔描述中,官方提到,之前分析過(guò)Seed 通用模型在 MaaS 服務(wù)中的調(diào)用情況,發(fā)現(xiàn),最高比例的需求為處理混雜圖表、文檔等非結(jié)構(gòu)化信息的知識(shí)內(nèi)容。
光錐智能用網(wǎng)上搜集來(lái)的一張簡(jiǎn)歷表的圖片給到豆包做參考,讓它做個(gè)一模一樣的表格出來(lái)。在實(shí)際測(cè)試效果中,雖然表格的大小比例還需要自己優(yōu)化,但豆包已經(jīng)能把表格的內(nèi)容完整復(fù)制下來(lái)。
![]()
左為參考圖片,右為Seed 2.0生成的表格
我們又丟了一張混雜著各種柱狀圖表的圖片讓豆包解讀,它也能準(zhǔn)確識(shí)別不同軸每個(gè)月份的信息。并且讀出來(lái)柱狀圖上的數(shù)字、不同顏色的軸代表的意義是收入和差值,然后講解圖片代表的意義。
![]()
![]()
另外,除了提升文件信息的處理,豆包這次把重心放在了Agent上。同樣是為了企業(yè)應(yīng)用的場(chǎng)景考慮,做了對(duì)長(zhǎng)內(nèi)容理解和連續(xù)多步驟執(zhí)行能力的優(yōu)化。
從測(cè)評(píng)數(shù)據(jù)來(lái)看,在Agent任務(wù)的執(zhí)行上,Seed 2.0確實(shí)站上了第一梯隊(duì)的位置。
以HLE(人類最后的測(cè)試,用于評(píng)判處理復(fù)雜任務(wù)的能力)為例,Seed 2.0拿到了52.4,超過(guò)了海外多個(gè)模型,超過(guò)了這幾天新發(fā)的模型GLM 5.0、MiniMax 2.5。但如果和開(kāi)源老大哥阿里的Qwen-3 Thinking Max(58.3)相比,還有些許差距。
![]()
為了測(cè)試豆包的Agent能力,光錐智能給了豆包一串月之暗面曾經(jīng)展示過(guò)的提示詞,讓Seed 2.0做一個(gè)在手機(jī)端運(yùn)行防止作弊的小問(wèn)卷,主題是考驗(yàn)用戶對(duì)豆包2.0的理解,一共出十道題就行。
雖然豆包一開(kāi)始做的版本沒(méi)辦法點(diǎn)擊測(cè)試按鈕跳轉(zhuǎn)到題目,但我們讓它自動(dòng)修正兩次后,豆包把這個(gè)需求成功復(fù)刻出來(lái)了。能運(yùn)行、能跳轉(zhuǎn)、能打分。
再讓它做了下連連看、黃金礦工這類小游戲,雖然在畫(huà)面上還有很大的優(yōu)化空間,不算美觀。但豆包給到的已經(jīng)是一個(gè)能直接運(yùn)行的游戲網(wǎng)頁(yè)。
![]()
可以說(shuō),現(xiàn)在的Seed 2.0,對(duì)于普通用戶的體驗(yàn)來(lái)說(shuō)足夠友好。不過(guò)在今年大火的Coding場(chǎng)景上,豆包的大模型梯隊(duì)還背著追趕第一梯隊(duì)的任務(wù)。
比如,在SWE-bench Verfied(用代碼解決問(wèn)題的能力)測(cè)試上,Seed 2.0的表現(xiàn)還沒(méi)辦法和智譜、MiniMax的新模型抗衡。Vibe Coding上,Seed 2.0的表現(xiàn)也不算突出。不過(guò)字節(jié)也沒(méi)準(zhǔn)備把Coding塞到這個(gè)模型里,而是另發(fā)了一個(gè)Coding模型補(bǔ)全代碼能力。
![]()
在模型定價(jià)上,Seed 2.0可以說(shuō)把價(jià)格壓到了非常低的程度,這一如既往地符合字節(jié)在大模型方面的低價(jià)策略。官方給出的價(jià)格展示中,Seed 2.0的輸入價(jià)格被壓低至0.6元/百萬(wàn)tokens,對(duì)比Claude Sonnet 4.5 3美元/百萬(wàn)token的價(jià)格,Seed僅是其 1/35,相比智譜GLM-5每百萬(wàn)tokens6元的價(jià)格,它僅是其1/10。
這樣的價(jià)格,在Agent搶跑的2026年,可以想象,會(huì)成為字節(jié)做Agent的落地優(yōu)勢(shì)。
字節(jié)式勝利:視頻模型的場(chǎng)景和速度戰(zhàn)
如果說(shuō)Seed 2.0是基礎(chǔ)設(shè)施的加固,那么本周發(fā)布的視頻模型Seedance 2.0,則算得上字節(jié)打得相當(dāng)漂亮的一場(chǎng)仗。
時(shí)間倒退回幾年前,可靈是第一個(gè)在國(guó)內(nèi)引起震動(dòng)的視頻生成模型。而現(xiàn)在,這種先發(fā)優(yōu)勢(shì)正在被后者追趕上。
本月,快手和字節(jié)先后發(fā)布了視頻生成模型的更新,快手發(fā)了可靈3.0,在分鏡能力上有所優(yōu)化,但目前還在內(nèi)測(cè)階段,尚未在官網(wǎng)全量上線;字節(jié)的Seedance 2.0雖然發(fā)得晚,但在真人素材、分鏡、物理規(guī)律理解和視頻匹配的音頻效果上的優(yōu)化,加上不到一周時(shí)間就基本開(kāi)放到人人可用的程度,后者成為當(dāng)前聲量最大的視頻生成產(chǎn)品。
但在實(shí)際測(cè)試中,光錐智能以快手可靈2.6和字節(jié)Seedance 2.0做測(cè)試,其實(shí)兩者拉開(kāi)的差距并沒(méi)有大到拉開(kāi)一個(gè)量級(jí)的差距。
就以物理規(guī)律為例,光錐智能以“臺(tái)球撞擊”為提示詞,讓兩個(gè)模型分別生成白球擊打紅球、紅球落袋的視頻,從結(jié)果來(lái)看,兩者各有優(yōu)勢(shì):可靈2.6沒(méi)有生成球桿擊打的效果,但白球擊中紅球一次后就順利落袋;Seedance 2.0給到了球桿擊打的畫(huà)面碰撞了兩次紅球才落袋。
但復(fù)盤(pán)Seedance 2.0的破圈之路,會(huì)發(fā)現(xiàn),這個(gè)模型的破圈在場(chǎng)景需求+字節(jié)工廠的能力下,幾乎是必勝的。
先說(shuō)場(chǎng)景,字節(jié)在社媒的快速破圈,不僅是靠影視颶風(fēng)Tim、游戲科學(xué)創(chuàng)始人馮驥的點(diǎn)評(píng)和測(cè)試,還有真人素材生成視頻的玩法破圈。這種生成的真實(shí)度包括了人像的真實(shí)、語(yǔ)音效果和本人的接近,讓更多用戶愿意“嘗鮮”。
找到場(chǎng)景的情況下,字節(jié)正在靠剪映、豆包覆蓋到更多用戶。當(dāng)競(jìng)爭(zhēng)對(duì)手快手可靈3.0仍處于內(nèi)測(cè)階段,僅限小范圍用戶體驗(yàn)的情況下,字節(jié)把Seedance 2.0的體驗(yàn)放到了剪映、豆包中。當(dāng)前,剪映及海外CCapcu工具t在剪輯中處在斷層領(lǐng)先的優(yōu)勢(shì),而豆包也是AI助手月活第一的產(chǎn)品。
![]()
現(xiàn)在,你可以直接在豆包里用上Seedance 2.0
可以說(shuō),字節(jié)用速度和生態(tài)的覆蓋,成功拿下了市場(chǎng)。
除了視頻生成模型外,在圖像生成方面,字節(jié)本周發(fā)布的Seedream 5.0 Lite延續(xù)了字節(jié)在圖片生成領(lǐng)域的優(yōu)勢(shì)。這次的更新,主要圍繞著實(shí)時(shí)信息搜索和指令遵循兩部分能力的提升,前者讓圖片生成能夠基于網(wǎng)上的信息增強(qiáng)理解效果,后者則讓它生成的結(jié)果更符合用戶提示詞給出的需求。
反過(guò)來(lái),字節(jié)在多模態(tài)能力上的持續(xù)加強(qiáng),也在反哺著豆包App。
最近爆火的豆包視頻實(shí)時(shí)指導(dǎo)你穿搭,效果搞笑,被更多人當(dāng)成了新奇玩法,這些高頻場(chǎng)景不僅培養(yǎng)了用戶習(xí)慣,也為模型提供了更多有效的對(duì)話信息。
本周三個(gè)大模型更新的“超級(jí)發(fā)布周”,是一次典型的字節(jié)式勝利:優(yōu)勢(shì)不僅是單點(diǎn)技術(shù)的突破,還靠接地氣的產(chǎn)品化能力和與普通用戶貼近的場(chǎng)景。
模型層面,字節(jié)在春節(jié)前交了一個(gè)能讓團(tuán)隊(duì)滿意的答卷,證明了豆包不止是一個(gè)“搞笑姐”。產(chǎn)品層面,豆包要和各家大廠AI App打的仗,即將在春晚掀開(kāi)帷幕。
隨著模型能力差距的拉近,這場(chǎng)AI戰(zhàn)爭(zhēng),注定越來(lái)越激烈。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.