![]()
作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com
過去一年,視頻AI賽道最熱的關(guān)鍵詞是“可控”——怎么讓AI生成的內(nèi)容更穩(wěn)定、更精準(zhǔn)、更符合用戶意圖。
創(chuàng)業(yè)者們在模型的缺陷上做補(bǔ)丁:更精細(xì)的畫布、逐幀調(diào)節(jié)、分鏡編排,試圖讓AI聽懂人類的每一個(gè)指令。
這是一條有價(jià)值的路,但它有一個(gè)盲區(qū):它假設(shè)了用戶已經(jīng)知道自己想做什么。
事實(shí)上,卡住大多數(shù)創(chuàng)作者的不是“怎么做”,而是“做什么”。商家不知道現(xiàn)在什么內(nèi)容格式在火,小創(chuàng)作者不知道為什么某個(gè)Meme能傳染給幾百萬人,品牌方不知道自己的產(chǎn)品該接進(jìn)哪個(gè)流行模式。
這是一個(gè)Context的問題,模型再強(qiáng)也解決不了,因?yàn)樗钤谝粋€(gè)封閉的生成室里,看不到外面的世界。
Buzzy的答案是,讓AI從創(chuàng)意環(huán)節(jié)開始介入,給Agent接入互聯(lián)網(wǎng)上活的、會(huì)傳染的創(chuàng)意數(shù)據(jù)流,然后和你一起創(chuàng)作視頻。
這個(gè)體系里有兩個(gè)核心能力。
一是,你與Agent一起腦暴。
在網(wǎng)頁端打開Buzzy,告訴Agent你想找什么風(fēng)格的內(nèi)容,它去各平臺(tái)幫你搜、幫你刷,根據(jù)你的品味推給你。你可以把喜歡的加進(jìn)list,也可以直接跟Agent討論:這個(gè)視頻哪里吸引你,想再找什么方向的。
Buzzy也接入了Messaging app,手機(jī)上看到好玩的,直接把鏈接發(fā)給它,它記下來,可以了解你的taste,幫你找類似的、做類似的。
二是,Agent幫你P視頻。
當(dāng)你找到想復(fù)刻的方向,不管是精美特效,還是百萬轉(zhuǎn)場,Buzzy都可以幫你復(fù)刻一個(gè)新的版本。
比如我們搜到了一個(gè)Ins上1.4M觀看的熱門穿搭換裝視頻,選擇進(jìn)行Recreate,上傳自己的穿搭,就可以得到一個(gè)這樣的效果。
除了復(fù)刻,用戶還可以讓Buzzy精準(zhǔn)修改任何一處,想加一個(gè)水杯,想把logo換成黃色——說出來,AI去執(zhí)行,其他部分不動(dòng)。
過去一年,從OpenClaw住進(jìn)用戶的電腦、釘釘開放CLI讓Agent進(jìn)入辦公環(huán)境、到“Harness”概念的興起——整個(gè)行業(yè)都在做同一件事:把模型從對話框里拉出來,放進(jìn)用戶真實(shí)所在的上下文環(huán)境里。
因?yàn)槟P椭挥泻湍闼诘沫h(huán)境打通,理解這個(gè)環(huán)境的運(yùn)作邏輯,才能真正持續(xù)進(jìn)化,而不只是接受一次性指令然后產(chǎn)出結(jié)果。
Buzzy做的是這件事在視頻創(chuàng)作里的具體形態(tài)。
以下是硅星人與Buzzy創(chuàng)始人Ella的對話:
一、模型在變強(qiáng),但創(chuàng)意依然很難
硅星人:Buzzy做這件事的底層邏輯是什么?現(xiàn)在視頻AI賽道這么熱,你們切入的角度和大多數(shù)人不太一樣。
Ella:我們做這個(gè)產(chǎn)品有一個(gè)前提——我們認(rèn)為模型會(huì)足夠強(qiáng)。你要做一個(gè)更長期的事情,就得假設(shè)最后模型一定能解決所有生成層面的問題。那我們就想,當(dāng)模型足夠強(qiáng)的時(shí)候,大家的卡點(diǎn)還在哪兒?
我們發(fā)現(xiàn)卡點(diǎn)其實(shí)在兩個(gè)環(huán)節(jié)。第一個(gè),也是最關(guān)鍵的——大多數(shù)用戶根本不知道自己要做什么內(nèi)容。不管是商家、創(chuàng)作者還是普通用戶,大家都想做內(nèi)容,都希望自己的內(nèi)容有人看、能帶來流量和收益。但什么樣的內(nèi)容能做到這一點(diǎn)?這件事對他們來說非常難。
你會(huì)發(fā)現(xiàn)所有人做內(nèi)容,包括你們寫文章也是,大量時(shí)間花在research上——找方向,找適合自己的、有熱度的、有創(chuàng)意的切入點(diǎn)。
硅星人:所以核心痛點(diǎn)不在“怎么做視頻”,而在“做什么視頻”?
Ella: 對。痛苦的點(diǎn)在兩個(gè)層面。第一,世界上90%的人,他可能都沒有那么有創(chuàng)意。不可能今天想一個(gè)靈感,明天又想一個(gè),后天又想一個(gè)。
第二,就算有了一個(gè)靈感,你要把它變成一個(gè)prompt也很痛苦。視頻是很視覺的事情,它有運(yùn)鏡、有節(jié)奏,你要讓普通人用一段文字把這些描述清楚,其實(shí)挺難的。
Buzzy一開始就想先解決這個(gè)入口問題——你得讓大家很容易地開始。假設(shè)模型夠強(qiáng),用戶也知道自己想做什么,模型又能全部做好,那不就可以了嗎?
二、你的靈感不該是“搜”出來的
硅星人:你們怎么解決用戶“不知道做什么”這個(gè)問題?Agent具體是怎么工作的?
Ella:我們先說一個(gè)認(rèn)知,人的靈感不應(yīng)該是坐在電腦前狂搜一兩天搜出來的。靈感是迸發(fā)出來的。它可能是跟朋友聚餐的時(shí)候,可能是在打車路上。它是碎片化的東西,不是說你拿到一個(gè)工具,坐那兒死搜就一定會(huì)有靈感。
所以我們的方法是這樣的——我們有一個(gè)bot,或者說一個(gè)Agent。用戶平時(shí)刷抖音,或者在某個(gè)moment突然有了靈感,就一鍵分享給這個(gè)bot。就像在微信或者飛書里發(fā)消息一樣,直接分享過去。可以是一個(gè)視頻,也可以是一個(gè)想法,比如“我要做一個(gè)狗跟電腦說話的視頻”。
這就是我們所說的capture——收集你平時(shí)的碎片靈感。
你分享給它之后,這個(gè)bot會(huì)幫你全網(wǎng)去搜。它會(huì)說,這個(gè)用戶想要“狗跟電腦說話”相關(guān)的東西,那我去看一下各個(gè)平臺(tái)上相關(guān)的素材都有哪些,有沒有視頻、文章、動(dòng)畫提到這個(gè)。
搜完之后,它會(huì)做兩層篩選:第一層是數(shù)據(jù)——如果一個(gè)視頻是近期發(fā)布的、播放量幾百萬、點(diǎn)贊很高,說明它是比較火的。火過的東西會(huì)再火,既然它火了,肯定有它的原因。
第二層是用戶的taste。每個(gè)用戶喜歡的內(nèi)容不一樣,有人喜歡大片感的,有人喜歡搞笑的,有人偏愛可愛風(fēng)。Agent會(huì)根據(jù)你平時(shí)的偏好,在同一個(gè)話題下找到符合你風(fēng)格的方向。
最終呈現(xiàn)給用戶的,就像一個(gè)個(gè)人化的靈感版——我們的slogan叫“find video ideas to recreate”,就是說你先找到一個(gè)不錯(cuò)的idea,然后starting from this,在它基礎(chǔ)上加入你自己的東西。
硅星人:我覺得這里最吸引人的是,Buzzy的Agent是在“用戶互聯(lián)網(wǎng)環(huán)境”中思考的。它能主動(dòng)去看全網(wǎng)在發(fā)生什么,一起沖浪、交流,這更偏向營銷和賬號運(yùn)營員工。
Ella:對,這是關(guān)鍵。我們在登陸的時(shí)候,還有會(huì)用戶個(gè)人賬號綁定,你可以把你的產(chǎn)品主頁、TikTok主頁傳上去,讓Buzzy和你一起運(yùn)營。
我們認(rèn)為用戶很難先想好做什么——他都已經(jīng)想清楚了,那還需要什么幫助?最痛苦的那一關(guān),就是想不出來。
硅星人:Buzzy能實(shí)時(shí)連接、搜索TikTok、ins等等,和人直接在這平臺(tái)上搜索一樣嗎?
Ella:不一樣。抖音搜索是純關(guān)鍵詞邏輯——你搜“可愛的貓和丑貓打一架”,在抖音很難搜到,因?yàn)樗皇瞧ヅ錁?biāo)簽。我們做了視頻理解,是語義搜索——把視頻里的風(fēng)格、動(dòng)效、運(yùn)鏡這些語義信息提取出來,再幫你搜跟這種“感覺”相似的視頻。
所以出來的結(jié)果第一是更準(zhǔn),第二它不再是一個(gè)純工具。用戶不用自己跨平臺(tái)去搜、一個(gè)一個(gè)去看。Agent已經(jīng)幫你搜完了,幫你全部看過一遍了,最后推給你的是質(zhì)量不錯(cuò)、數(shù)據(jù)不錯(cuò)、有二創(chuàng)空間的內(nèi)容。
三、教AI理解“梗”有多難
硅星人: 視頻理解能力是這套系統(tǒng)的核心之一。但AI理解視頻里的“梗”應(yīng)該非常難——有些梗連人都看不懂,怎么教AI?
Ella: 難點(diǎn)確實(shí)在這里。舉個(gè)例子——有一個(gè)面粉整蠱視頻,一個(gè)人在面粉袋底部貼了膠帶,她老公拿起來的時(shí)候,膠帶一扯,面粉直接撲到臉上。這個(gè)梗的關(guān)鍵在膠帶,但AI一開始完全看不到膠帶,不理解為什么好笑。
還有一個(gè)是把真人變成可愛卡通小人在跑步機(jī)上跑,AI沒理解“可愛的小人”才是關(guān)鍵,直接把真人大人放跑步機(jī)上——那就不是梗了。
核心要求是:你要先理解梗,才能幫用戶復(fù)述這個(gè)梗。
硅星人: 但怎么讓AI做到這件事?你們接的是API,不能去微調(diào)Gemini?
Ella: 我們的方法分兩層。
第一層是context指導(dǎo)——給AI更多上下文,告訴它這類視頻要關(guān)注什么。比如有些視頻核心是音樂卡點(diǎn),你要告訴它“這是卡點(diǎn)視頻,節(jié)奏才是關(guān)鍵”,它后來就懂了。
但你一定不能一開始cover所有情況。AI在做的過程中會(huì)有遺漏,這時(shí)候我們會(huì)給它feedback:為什么這個(gè)點(diǎn)你沒注意到?缺了什么context,你再去調(diào)。這是一個(gè)持續(xù)進(jìn)化的過程。
第二層是在大模型上搭載了一個(gè)小模型。因?yàn)橹豢縞ontext還不夠,有些情況還是會(huì)出錯(cuò)。出錯(cuò)的時(shí)候,每次feedback都會(huì)讓這個(gè)小模型存下一些東西——不完全是memory,更像是存參數(shù)。你越給AI這些context和feedback,它就越來越準(zhǔn)。
硅星人: 所以這個(gè)小模型輸出的“參數(shù)”是什么?
Ella: 可以這么理解:大模型(比如Gemini)本身我們改不了,但在它外面我們搭了一個(gè)小模型,這個(gè)小模型積累了大量“什么叫梗”的判斷經(jīng)驗(yàn)。每次新視頻進(jìn)來,小模型先做分析——這個(gè)視頻的創(chuàng)意點(diǎn)在哪、梗的類型是什么——然后把這些判斷結(jié)果作為輸入傳給大模型。大模型拿到的不只是視頻本身,還有小模型預(yù)處理過的“理解框架”。這樣大模型的輸出就會(huì)更準(zhǔn)。
硅星人: 靠不斷出錯(cuò)、不斷feedback來進(jìn)化,那這樣效果總是滯后的,怎么辦?
Ella: 確實(shí)需要前期大量調(diào)教。但我們發(fā)現(xiàn),當(dāng)你cover了差不多大部分視頻類型之后,準(zhǔn)確率就會(huì)越來越高,后面就不用那么頻繁地去干預(yù)了。關(guān)鍵是先把主要的梗類型都讓AI見過,它就能泛化到類似的情況。
我們的目標(biāo)是讓AI真正有創(chuàng)意。推創(chuàng)意的前提是它先得理解這些視頻的創(chuàng)意點(diǎn)在哪。如果它看了這么多視頻,數(shù)據(jù)也喂給它了,它不能理解為什么這個(gè)視頻火,那它永遠(yuǎn)不會(huì)有創(chuàng)意。
四、自然語言修改視頻——跟Agent說人話就行
硅星人:找到靈感之后,用戶具體怎么在Buzzy上把視頻做出來?
Ella:用戶選一個(gè)覺得不錯(cuò)的視頻作為開始,然后就跟Agent對話。可以做簡單的二創(chuàng),比如說“把這個(gè)角色換成我的臉”“把橘黃色改成我的品牌色”,像“口噴P視頻”一樣,當(dāng)然,也可以沒有參考視頻,在對話中按照生劇情、關(guān)鍵幀、圖生視頻的方式做,但我們目前核心做的還是前者——二創(chuàng)。
背后的Agent會(huì)根據(jù)不同的視頻自動(dòng)選擇不同的模型。我們不讓用戶選模型——用戶選視頻就好了,模型Buzzy來判斷。
硅星人:你們的自然語言修改P視頻,想比視頻模型自帶的參考圖、主體替換等功能,做了什么額外的工程嗎?
Ella:有幾個(gè)點(diǎn),首先,seedance直接修改主體其實(shí)并不是很穩(wěn)定,我們做了很多主體的智能識(shí)別能更穩(wěn)定的替換;
其次, 我們可以修改劇情,對白,背后做了比較多的工作讓劇情修改后更加平滑的鏈接上 。
最后是我們可以做到時(shí)間軸上某一段修改,其他段完全不變,銜接的自然。
硅星人:花費(fèi)大量精力做自然語言P視頻的意義在哪里?這是基礎(chǔ)模型廠商比如Kling、Vidu等等一直在做的事情,你們要跟他們比效果或者速度嗎?
Ella:是這樣的,我們認(rèn)為視頻編輯是一個(gè)非常重要的生成的后處理環(huán)節(jié)。
但大部分的生成工具,目前做的是先生成很多分鏡,再基于分鏡生成分段視頻,再進(jìn)行拼接,因?yàn)橛脩粢坏┥珊镁筒缓酶膭?dòng)了,前期需要大量的確認(rèn)環(huán)節(jié)。
但我們認(rèn)為這不是一個(gè)最優(yōu)的路徑,大多數(shù)用戶想要的還是一口氣生成完整視頻,然后看到哪里不滿意再指哪打哪的修改。
特別是用戶和商家日常自己拍攝的視頻。使用Buzzy直接視頻,可以節(jié)約大量重新錄制的時(shí)間和成本。
基礎(chǔ)模型廠商一直做生成的視頻片段的修改,他們是我們的基礎(chǔ),但是整體的視頻修改有很多很細(xì)的部分,交互不是模型層能做好的。
比如Photoshop,用戶需要精細(xì)的框選畫面物體或者編輯某一段時(shí)間軸上的內(nèi)容,這個(gè)不僅是自然語言模型的解決的,更多還有應(yīng)用層的交互和工具設(shè)計(jì)。
所以我們并不是在和基礎(chǔ)模型廠商比拼,我們更多是建立在基模不斷進(jìn)化的基礎(chǔ)上,給用戶提供更多的工具體驗(yàn)和用戶個(gè)人品味沉淀下的視頻修改agent。
當(dāng)然我們相信隨著基模越變越好,我們的效果也會(huì)越來越好,因?yàn)槲覀兙拖翊>拖袼疂q船高。
硅星人:這跟現(xiàn)在很多做畫布、做分鏡的視頻AI工具路線完全不同。
Ella:我們走的是完全相反的路。那些產(chǎn)品希望做得越來越復(fù)雜——更精細(xì)的畫布控制,逐幀調(diào)節(jié),每個(gè)分鏡都可以單獨(dú)編輯。他們服務(wù)的是非常專業(yè)的創(chuàng)作者,就是要做電影,分鏡要特別好的人。
他們算video editor,我們算video recreator。你讓做賬號的人每天去研究畫布?他們更多是看數(shù)據(jù)——最近三天播放量超過十萬的視頻拉出來,看看有什么跟我相關(guān)的,好,做。
或者做廣告的人看一下競品跑了什么廣告效果不錯(cuò),把我的商品放進(jìn)去,就是這樣的需求。
五、Agent越用越懂你
硅星人:如果Buzzy定位是一個(gè)私人的視頻創(chuàng)作運(yùn)營員工,那么參考人類員工會(huì)看視頻發(fā)布數(shù)據(jù),你們的Agent也會(huì)去看嗎?
Ella:用戶把視頻發(fā)到TikTok、Instagram這些平臺(tái)之后,我們是能拿到一些數(shù)據(jù)的——播放量、互動(dòng)率、廣告ROI這些。我們再把數(shù)據(jù)反饋給Agent,跟它說:你這次的創(chuàng)意只拿到了50分,但別人的拿到了80分。
這本質(zhì)上就是Agent的“饑餓游戲”——讓Agent發(fā)現(xiàn)另一個(gè)視頻做得比它好,那它就應(yīng)該向別人靠攏,把好的方向反饋回來,說我們應(yīng)該往A這個(gè)方向去做創(chuàng)意,而不是B。
硅星人:但流量有時(shí)候是不可預(yù)測的,同樣的創(chuàng)意可能因?yàn)榘l(fā)布時(shí)間、賬號屬性等因素有不同表現(xiàn)。
Ella:對,Buzzy不能保證說發(fā)這樣的內(nèi)容一定更好。但從更大的維度來看,它會(huì)不斷迭代,比如發(fā)三個(gè)不同的角度,小貓?zhí)瑁┥斤w狐,然后發(fā)現(xiàn)你的賬號就是做雪山飛狐數(shù)據(jù)更好,那就繼續(xù)做,和人類員工的AB test是一樣的。
六、從Creati到Buzzy——為什么是這條路
硅星人:你之前的背景是什么,團(tuán)隊(duì)之前做過什么,是怎么走到Buzzy這條路上的?
Ella:我們從GANs時(shí)代就開始做視頻AI了。上一個(gè)產(chǎn)品叫Creati,有點(diǎn)像Pixverse——用戶選一個(gè)模板,把照片傳上去,一鍵生成。那個(gè)產(chǎn)品用戶量也比較大。
我們在做Creati的時(shí)候看到了一個(gè)核心問題——小商家和大多數(shù)創(chuàng)作者,他們其實(shí)非常需要所見即所得,無論是創(chuàng)作視頻還是修改視頻,都是希望先給到一個(gè)結(jié)果,基于可視化的結(jié)果去做修改。
大部分人有一個(gè)Spark、一個(gè)靈感的碎片,但它不清晰,需要很多工作來把它具體化。或者很多人其實(shí)有靈感,后來就懶得做了。
之前Creati是把做好的模板給用戶選,buzzy要做的就是AI員工幫用戶找到可視化的靈感,用戶直接告訴agent這個(gè)才是我想要的風(fēng)格,然后直接給到用戶結(jié)果。
硅星人:現(xiàn)在產(chǎn)品到什么階段了?
Ella:Buzzy是2025年底開始做的,兩三個(gè)月做出來,正式環(huán)境已經(jīng)上線了,也歡迎大家來使用https://www.buzzy.now/。
我們想做一點(diǎn)不太一樣的東西。現(xiàn)在做視頻的人很多,我們一直在想到底哪一塊對用戶長期有價(jià)值。我們覺得長期有價(jià)值的還是沉淀用戶的taste——因?yàn)楫?dāng)AI能做所有事情的時(shí)候,人的品味和選擇才是最后的堡壘。
![]()
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.