網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)證明了，豆包不止是個(gè)搞笑姐

2026-02-14 22:39:14　來(lái)源: 光錐智能

山西舉報(bào)

分享至

文｜魏琳華

編｜王一粟

越到春節(jié)越熱鬧，2月接近過(guò)半，全球AI行業(yè)迎來(lái)了一個(gè)忙碌的“超級(jí)發(fā)布月”。

海外御三家先后參戰(zhàn)，先是OpenAI和Anthropic撞檔期，前后腳發(fā)布了GPT 5.3 codex和Claude Opus 4.6，隔了幾天，Google把Deep Think端了上來(lái)；國(guó)內(nèi)，兩家上市的六小虎智譜、MiniMax發(fā)模型，視頻領(lǐng)域，快手的可靈3.0和字節(jié)的Seedance對(duì)打。真是好不熱鬧。

在這場(chǎng)模型對(duì)決中，字節(jié)算得上是本周掀起最大熱度的一家參戰(zhàn)者。不說(shuō)Seedance 2.0的破圈效應(yīng)，在發(fā)模型的力度上，字節(jié)本周一口氣把視頻、圖片生成和大語(yǔ)言模型全都放了出來(lái)，每個(gè)領(lǐng)域都在刷存在感。

回顧這兩年，其實(shí)在大語(yǔ)言模型的領(lǐng)域，字節(jié)的存在感顯然不如視頻、圖文等多模態(tài)領(lǐng)域更強(qiáng)，但豆包卻成了AI入口之爭(zhēng)中表現(xiàn)最好的產(chǎn)品。

事事?tīng)?zhēng)先的字節(jié)，目標(biāo)一定是全領(lǐng)域覆蓋。所以這次的豆包2.0大模型（Seed 2.0），也是有備而來(lái)。

豆包之所以領(lǐng)先，靠的不僅僅是字節(jié)系流量的灌溉，更關(guān)鍵的是找對(duì)了用戶想玩的場(chǎng)景。比如最近刷視頻，天天都能刷到豆包指點(diǎn)人類穿搭。

所以在大語(yǔ)言模型的優(yōu)化上，豆包的進(jìn)展也延續(xù)了場(chǎng)景思路，重點(diǎn)在兩個(gè)方向：一是繼續(xù)在多模態(tài)能力上發(fā)光發(fā)熱，二是為了火山引擎做鋪墊，優(yōu)化了Agent相關(guān)能力，讓它在企業(yè)端更好用。

字節(jié)的AI野心，正在隨著模型能力的補(bǔ)全緩緩展開(kāi)。

進(jìn)化靠場(chǎng)景：左手多模態(tài)、右手抓Agent

可以說(shuō)，Seed 2.0更新最亮眼的能力，就是多模態(tài)的進(jìn)化。

在官方曬出取得成績(jī)的一系列領(lǐng)域中，一部分功勞就要?dú)w到視覺(jué)理解能力身上。以數(shù)學(xué)領(lǐng)域?yàn)槔止?jié)超過(guò)海外多個(gè)閉源大模型的其中兩個(gè)指標(biāo)MathVista、MathVision，這兩者重點(diǎn)考察模型對(duì)包含視覺(jué)信息的數(shù)學(xué)問(wèn)題的理解能力——也就是模型不僅得數(shù)學(xué)好，還得“看”得明白。

除了視覺(jué)推理，在視頻場(chǎng)景的理解上，Seed 2.0的表現(xiàn)也相對(duì)突出。在官方演示中，它能通過(guò)對(duì)于時(shí)間、運(yùn)動(dòng)感知的理解，讓大模型看明白視頻中的內(nèi)容。比如吃透臺(tái)球的走位、推測(cè)擊打臺(tái)球的位置。

不難想象，這個(gè)功能如果后期和視頻通話進(jìn)行聯(lián)動(dòng)，豆包又能做出來(lái)多少出圈視頻。

多模態(tài)能力的加強(qiáng)，也讓Seed 2.0優(yōu)化了一些在現(xiàn)實(shí)中更剛需的場(chǎng)景。豆包不僅僅是基于用戶需求優(yōu)化，字節(jié)在做模型的思路上，也同樣是朝著場(chǎng)景落地來(lái)做優(yōu)化。

在Seed 2.0文檔描述中，官方提到，之前分析過(guò)Seed 通用模型在 MaaS 服務(wù)中的調(diào)用情況，發(fā)現(xiàn)，最高比例的需求為處理混雜圖表、文檔等非結(jié)構(gòu)化信息的知識(shí)內(nèi)容。

光錐智能用網(wǎng)上搜集來(lái)的一張簡(jiǎn)歷表的圖片給到豆包做參考，讓它做個(gè)一模一樣的表格出來(lái)。在實(shí)際測(cè)試效果中，雖然表格的大小比例還需要自己優(yōu)化，但豆包已經(jīng)能把表格的內(nèi)容完整復(fù)制下來(lái)。

左為參考圖片，右為Seed 2.0生成的表格

我們又丟了一張混雜著各種柱狀圖表的圖片讓豆包解讀，它也能準(zhǔn)確識(shí)別不同軸每個(gè)月份的信息。并且讀出來(lái)柱狀圖上的數(shù)字、不同顏色的軸代表的意義是收入和差值，然后講解圖片代表的意義。

另外，除了提升文件信息的處理，豆包這次把重心放在了Agent上。同樣是為了企業(yè)應(yīng)用的場(chǎng)景考慮，做了對(duì)長(zhǎng)內(nèi)容理解和連續(xù)多步驟執(zhí)行能力的優(yōu)化。

從測(cè)評(píng)數(shù)據(jù)來(lái)看，在Agent任務(wù)的執(zhí)行上，Seed 2.0確實(shí)站上了第一梯隊(duì)的位置。

以HLE（人類最后的測(cè)試，用于評(píng)判處理復(fù)雜任務(wù)的能力）為例，Seed 2.0拿到了52.4，超過(guò)了海外多個(gè)模型，超過(guò)了這幾天新發(fā)的模型GLM 5.0、MiniMax 2.5。但如果和開(kāi)源老大哥阿里的Qwen-3 Thinking Max（58.3）相比，還有些許差距。

為了測(cè)試豆包的Agent能力，光錐智能給了豆包一串月之暗面曾經(jīng)展示過(guò)的提示詞，讓Seed 2.0做一個(gè)在手機(jī)端運(yùn)行防止作弊的小問(wèn)卷，主題是考驗(yàn)用戶對(duì)豆包2.0的理解，一共出十道題就行。

雖然豆包一開(kāi)始做的版本沒(méi)辦法點(diǎn)擊測(cè)試按鈕跳轉(zhuǎn)到題目，但我們讓它自動(dòng)修正兩次后，豆包把這個(gè)需求成功復(fù)刻出來(lái)了。能運(yùn)行、能跳轉(zhuǎn)、能打分。

再讓它做了下連連看、黃金礦工這類小游戲，雖然在畫(huà)面上還有很大的優(yōu)化空間，不算美觀。但豆包給到的已經(jīng)是一個(gè)能直接運(yùn)行的游戲網(wǎng)頁(yè)。

可以說(shuō)，現(xiàn)在的Seed 2.0，對(duì)于普通用戶的體驗(yàn)來(lái)說(shuō)足夠友好。不過(guò)在今年大火的Coding場(chǎng)景上，豆包的大模型梯隊(duì)還背著追趕第一梯隊(duì)的任務(wù)。

比如，在SWE-bench Verfied（用代碼解決問(wèn)題的能力）測(cè)試上，Seed 2.0的表現(xiàn)還沒(méi)辦法和智譜、MiniMax的新模型抗衡。Vibe Coding上，Seed 2.0的表現(xiàn)也不算突出。不過(guò)字節(jié)也沒(méi)準(zhǔn)備把Coding塞到這個(gè)模型里，而是另發(fā)了一個(gè)Coding模型補(bǔ)全代碼能力。

在模型定價(jià)上，Seed 2.0可以說(shuō)把價(jià)格壓到了非常低的程度，這一如既往地符合字節(jié)在大模型方面的低價(jià)策略。官方給出的價(jià)格展示中，Seed 2.0的輸入價(jià)格被壓低至0.6元/百萬(wàn)tokens，對(duì)比Claude Sonnet 4.5 3美元/百萬(wàn)token的價(jià)格，Seed僅是其 1/35，相比智譜GLM-5每百萬(wàn)tokens6元的價(jià)格，它僅是其1/10。

這樣的價(jià)格，在Agent搶跑的2026年，可以想象，會(huì)成為字節(jié)做Agent的落地優(yōu)勢(shì)。

字節(jié)式勝利：視頻模型的場(chǎng)景和速度戰(zhàn)

如果說(shuō)Seed 2.0是基礎(chǔ)設(shè)施的加固，那么本周發(fā)布的視頻模型Seedance 2.0，則算得上字節(jié)打得相當(dāng)漂亮的一場(chǎng)仗。

時(shí)間倒退回幾年前，可靈是第一個(gè)在國(guó)內(nèi)引起震動(dòng)的視頻生成模型。而現(xiàn)在，這種先發(fā)優(yōu)勢(shì)正在被后者追趕上。

本月，快手和字節(jié)先后發(fā)布了視頻生成模型的更新，快手發(fā)了可靈3.0，在分鏡能力上有所優(yōu)化，但目前還在內(nèi)測(cè)階段，尚未在官網(wǎng)全量上線；字節(jié)的Seedance 2.0雖然發(fā)得晚，但在真人素材、分鏡、物理規(guī)律理解和視頻匹配的音頻效果上的優(yōu)化，加上不到一周時(shí)間就基本開(kāi)放到人人可用的程度，后者成為當(dāng)前聲量最大的視頻生成產(chǎn)品。

但在實(shí)際測(cè)試中，光錐智能以快手可靈2.6和字節(jié)Seedance 2.0做測(cè)試，其實(shí)兩者拉開(kāi)的差距并沒(méi)有大到拉開(kāi)一個(gè)量級(jí)的差距。

就以物理規(guī)律為例，光錐智能以“臺(tái)球撞擊”為提示詞，讓兩個(gè)模型分別生成白球擊打紅球、紅球落袋的視頻，從結(jié)果來(lái)看，兩者各有優(yōu)勢(shì)：可靈2.6沒(méi)有生成球桿擊打的效果，但白球擊中紅球一次后就順利落袋；Seedance 2.0給到了球桿擊打的畫(huà)面碰撞了兩次紅球才落袋。

但復(fù)盤(pán)Seedance 2.0的破圈之路，會(huì)發(fā)現(xiàn)，這個(gè)模型的破圈在場(chǎng)景需求+字節(jié)工廠的能力下，幾乎是必勝的。

先說(shuō)場(chǎng)景，字節(jié)在社媒的快速破圈，不僅是靠影視颶風(fēng)Tim、游戲科學(xué)創(chuàng)始人馮驥的點(diǎn)評(píng)和測(cè)試，還有真人素材生成視頻的玩法破圈。這種生成的真實(shí)度包括了人像的真實(shí)、語(yǔ)音效果和本人的接近，讓更多用戶愿意“嘗鮮”。

找到場(chǎng)景的情況下，字節(jié)正在靠剪映、豆包覆蓋到更多用戶。當(dāng)競(jìng)爭(zhēng)對(duì)手快手可靈3.0仍處于內(nèi)測(cè)階段，僅限小范圍用戶體驗(yàn)的情況下，字節(jié)把Seedance 2.0的體驗(yàn)放到了剪映、豆包中。當(dāng)前，剪映及海外CCapcu工具t在剪輯中處在斷層領(lǐng)先的優(yōu)勢(shì)，而豆包也是AI助手月活第一的產(chǎn)品。

現(xiàn)在，你可以直接在豆包里用上Seedance 2.0

可以說(shuō)，字節(jié)用速度和生態(tài)的覆蓋，成功拿下了市場(chǎng)。

除了視頻生成模型外，在圖像生成方面，字節(jié)本周發(fā)布的Seedream 5.0 Lite延續(xù)了字節(jié)在圖片生成領(lǐng)域的優(yōu)勢(shì)。這次的更新，主要圍繞著實(shí)時(shí)信息搜索和指令遵循兩部分能力的提升，前者讓圖片生成能夠基于網(wǎng)上的信息增強(qiáng)理解效果，后者則讓它生成的結(jié)果更符合用戶提示詞給出的需求。

反過(guò)來(lái)，字節(jié)在多模態(tài)能力上的持續(xù)加強(qiáng)，也在反哺著豆包App。

最近爆火的豆包視頻實(shí)時(shí)指導(dǎo)你穿搭，效果搞笑，被更多人當(dāng)成了新奇玩法，這些高頻場(chǎng)景不僅培養(yǎng)了用戶習(xí)慣，也為模型提供了更多有效的對(duì)話信息。

本周三個(gè)大模型更新的“超級(jí)發(fā)布周”，是一次典型的字節(jié)式勝利：優(yōu)勢(shì)不僅是單點(diǎn)技術(shù)的突破，還靠接地氣的產(chǎn)品化能力和與普通用戶貼近的場(chǎng)景。

模型層面，字節(jié)在春節(jié)前交了一個(gè)能讓團(tuán)隊(duì)滿意的答卷，證明了豆包不止是一個(gè)“搞笑姐”。產(chǎn)品層面，豆包要和各家大廠AI App打的仗，即將在春晚掀開(kāi)帷幕。

隨著模型能力差距的拉近，這場(chǎng)AI戰(zhàn)爭(zhēng)，注定越來(lái)越激烈。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.