本文來(lái)源:消費(fèi)者報(bào)道 作者:郭美婷
一度登頂全球AI盲測(cè)榜單的阿里“歡樂(lè)馬”HappyHorse 1.0,終于揭開(kāi)神秘面紗。
4月27日晚,阿里巴巴視頻生成模型 HappyHorse 1.0(歡樂(lè)馬)正式開(kāi)啟灰度測(cè)試,這款曾以匿名身份橫掃國(guó)際權(quán)威AI視頻榜單、被行業(yè)熱議多日的“黑馬”,從幕后走到了臺(tái)前。
![]()
圖源:截圖自HappyHorse官網(wǎng)
作為阿里ATH創(chuàng)新事業(yè)部打造的多模態(tài)生成模型,HappyHorse 1.0采用音視頻聯(lián)合生成方案,瞄準(zhǔn)廣告、電商、短劇、社媒創(chuàng)意等場(chǎng)景,推出AI視頻生成與視頻編輯服務(wù)。
當(dāng)前AI視頻生成賽道中,運(yùn)動(dòng)流暢性、人物一致性、自動(dòng)分鏡與自動(dòng)運(yùn)鏡,是決定內(nèi)容可用度與專(zhuān)業(yè)質(zhì)感的幾個(gè)核心指標(biāo)。其中,運(yùn)動(dòng)流暢性關(guān)乎畫(huà)面自然度,人物一致性決定角色辨識(shí)度與敘事連貫度,自動(dòng)分鏡與自動(dòng)運(yùn)鏡則體現(xiàn)模型的創(chuàng)意編排與鏡頭語(yǔ)言能力,直接影響成片的敘事節(jié)奏與視覺(jué)表現(xiàn)力。
為此,開(kāi)機(jī)實(shí)驗(yàn)室將從這幾個(gè)維度對(duì)HappyHorse 1.0展開(kāi)實(shí)測(cè)。
目前,全球?qū)I(yè)創(chuàng)作者與企業(yè)客戶(hù)可通過(guò)官網(wǎng)、阿里云百煉平臺(tái)注冊(cè)體驗(yàn),普通用戶(hù)則可通過(guò)千問(wèn)App試用。
HappyHorse官網(wǎng)新用戶(hù)注冊(cè)即贈(zèng)送66積分,可生成視頻比例囊括了16:9、4:3、3:4、1:1、9:16共5個(gè)常規(guī)視頻比例。一次可生成視頻時(shí)長(zhǎng)在3-15秒之間,調(diào)節(jié)相對(duì)靈活。據(jù)開(kāi)機(jī)實(shí)驗(yàn)室實(shí)測(cè),生成3秒視頻需要消耗19積分,5秒需消耗32個(gè)積分,10秒則需消耗63積分。
![]()
圖源:截圖自HappyHorse官網(wǎng)
千問(wèn)APP提供的體驗(yàn)額度則更大,用戶(hù)每日有10個(gè)額度的體驗(yàn)額。只要在APP內(nèi)找到HappyHorse內(nèi)測(cè)接口,可選擇的視頻比例、清晰度與網(wǎng)頁(yè)版一致,但在時(shí)長(zhǎng)選擇上相對(duì)固定,僅有5秒、10秒、15秒三個(gè)時(shí)長(zhǎng)選項(xiàng),生成5秒視頻消耗1個(gè)額度,10秒消耗2個(gè)額度。
![]()
圖源:截圖自千問(wèn)APP
以下視頻均為使用千問(wèn)APP生成,輸入指令后,排隊(duì)等待時(shí)長(zhǎng)大約在2-3分鐘。
為了測(cè)試HappyHorse生成視頻的運(yùn)動(dòng)流暢性,開(kāi)機(jī)實(shí)驗(yàn)室分別輸入了人物在行走和演奏樂(lè)器兩段文字指令。
第一段指令為:
黃昏的城市街道,柏油路面殘留雨后水跡。一位身著米色風(fēng)衣的女性在人群中穿過(guò),手臂自然垂在身體兩側(cè)擺動(dòng),每一次跨步都是腳跟先落地,平穩(wěn)向前行。身后街燈倒映在路面上光影斑駁。攝影機(jī)角度保持低位,近乎與地面齊平——仿佛一名蹲在路邊的行人正在隨意觀看。
![]()
從實(shí)際生成效果來(lái)看,模型完整還原了腳跟到腳掌的連貫落地步態(tài),人物手臂擺動(dòng)與行走節(jié)奏匹配協(xié)調(diào),風(fēng)衣隨肢體動(dòng)作產(chǎn)生的布料褶皺真實(shí)自然,未出現(xiàn)腳底滑移、懸浮等常見(jiàn) AI瑕疵,但細(xì)看街上的照片漢字出現(xiàn)了“生造字”情況。
第二段指令為:
中景鏡頭,一位身穿休閑襯衫的吉他手坐在木質(zhì)高腳凳上,快速進(jìn)行高把位和弦轉(zhuǎn)換與擊勾弦演奏。撥片在琴弦上細(xì)碎跳動(dòng)著。運(yùn)鏡自動(dòng)跟隨按弦的手腕軌跡平移。
![]()
整體下來(lái),畫(huà)面細(xì)節(jié)貼合演奏邏輯,手指形態(tài)自然無(wú)畸形、多指問(wèn)題,撥片與琴弦交互也較為寫(xiě)實(shí),中景下的高把位演奏動(dòng)作連貫,撥片細(xì)節(jié)、手腕跟隨運(yùn)鏡均完整落地。
此外,強(qiáng)動(dòng)態(tài)高速運(yùn)動(dòng)、瞬間撞擊反饋以及極速慢鏡頭演繹,也是檢驗(yàn) AI 視頻模型運(yùn)動(dòng)流暢度與物理還原能力的關(guān)鍵場(chǎng)景。
為此,開(kāi)機(jī)實(shí)驗(yàn)室輸入了以下指令:
傍晚的足球場(chǎng),夕陽(yáng)金色草地。前鋒全速帶球沖向禁區(qū),右腳大力抽射,球鞋側(cè)面與皮球在撞擊瞬間產(chǎn)生形變。立即切換為超高速慢動(dòng)作模式:鞋釘掀起的草皮碎屑緩緩飛揚(yáng);守門(mén)員飛身?yè)涑鰰r(shí)球衣隨風(fēng)沙沙作響;足球在空中高速旋轉(zhuǎn)劃出弧線,最后撞擊球網(wǎng)將尼龍網(wǎng)格拉伸成長(zhǎng)長(zhǎng)的菱形。
![]()
在生成的10秒視頻里,文字指令里提到的夕陽(yáng)、草地、抽射、慢鏡頭等元素基本都被還原出來(lái),畫(huà)面氛圍感也在線。但仔細(xì)觀察就會(huì)發(fā)現(xiàn),腳踢中足球泥土濺起那一刻畫(huà)面比較假。另外,動(dòng)作之間的銜接存在不夠順滑的情況,運(yùn)動(dòng)員整體發(fā)力、碰撞、足球的飛行的邏輯不太符合現(xiàn)實(shí)物理規(guī)律,AI痕跡比較重。
一直以來(lái),AI 視頻最讓人頭疼的問(wèn)題之一就是人物的一致性,部分AI生成的視頻前后會(huì)出現(xiàn)“換臉”情況。前一秒還是這個(gè)五官,轉(zhuǎn)個(gè)頭就面目全非,發(fā)型、穿搭也會(huì)莫名其妙變化。所以,人物在生成的全程畫(huà)面里保持形象統(tǒng)一,也成為衡量一款A(yù)I視頻模型好不好用的指標(biāo)之一。因此,開(kāi)機(jī)實(shí)驗(yàn)室通過(guò)文字指令不斷地切換場(chǎng)景,來(lái)測(cè)試模型能否在動(dòng)態(tài)運(yùn)動(dòng)、鏡頭切換、長(zhǎng)時(shí)間生成中,保持人物特征,不崩臉、不跳變、不“自我修改”。
第一段指令為:
連續(xù)片段展示一位戴黑框眼鏡、留三七分短發(fā)、穿櫻花粉毛衣的女性室內(nèi)設(shè)計(jì)師。她先在落地窗大客廳受訪;接著轉(zhuǎn)入暖黃燈光與木質(zhì)書(shū)架共存的書(shū)房伏案改圖;再進(jìn)入正在裝修的毛坯房工地指導(dǎo)施工。短發(fā)始終朝左前額自然垂落,毛衣左胸處有同色系花紋帶,膚色在日光、暖光與粉塵光中自動(dòng)匹配真實(shí)光影漂移。
![]()
從生成的視頻來(lái)看,人物在幾個(gè)場(chǎng)景轉(zhuǎn)換中都保持了一致,未出現(xiàn)異常(除了扶眼鏡時(shí)扶到了鏡片上)。為了進(jìn)一步測(cè)試,在下一個(gè)文字指令中,又增加了更多的人物特征和鏡頭轉(zhuǎn)換。
第二段文字指令為:
視頻展示一位中年亞裔男性廚師在開(kāi)放式廚房連續(xù)完成動(dòng)作:正面面對(duì)攝像頭(近景)描述食材,向左后方轉(zhuǎn)身取鹽罐(過(guò)肩鏡頭),然后再次面向鏡頭進(jìn)行翻勺演示(半身中景)。他左眉根部的痣在每次特寫(xiě)時(shí)始終處于同一位置。
![]()
在該段視頻里,廚師轉(zhuǎn)身再轉(zhuǎn)回的過(guò)渡中并未出現(xiàn)“瞬間換人”感,特殊面部標(biāo)識(shí)也一直都在。不過(guò),左眉根部的痣有點(diǎn)像“粘”上去的。
如果是更極限的場(chǎng)景呢?在下面一個(gè)視頻里,開(kāi)機(jī)實(shí)驗(yàn)室設(shè)置了AB兩場(chǎng)景交叉敘事,指令如下:
A場(chǎng)景:身穿藏青色夾克、佩戴工牌的企業(yè)安全主管在監(jiān)控室里查看屏幕,她看著面前一整面墻的安防監(jiān)控畫(huà)面。隨后,同一安全主管立刻在應(yīng)急指揮中心下達(dá)行動(dòng)指令,她手持對(duì)講機(jī),神情嚴(yán)肅。
B場(chǎng)景:劇情切換到應(yīng)急響應(yīng)小組(2-3名新配角,身著統(tǒng)一工作服)按指令迅速展開(kāi)行動(dòng),分別跑向不同通道。
最后鏡頭切回安全主管的中景特寫(xiě)。
![]()
視頻中,來(lái)回跨場(chǎng)景時(shí),主管的面容始終保持穩(wěn)定,發(fā)型、膚色沒(méi)有出現(xiàn)跳變與違和,全程也沒(méi)有出現(xiàn)配角喧賓奪主、角色面部錯(cuò)亂替換的情況,整體表現(xiàn)相對(duì)穩(wěn)定。不過(guò),開(kāi)機(jī)實(shí)驗(yàn)室注意到一個(gè)小細(xì)節(jié),視頻中主管的工牌上的照片似乎與其本人并不相符,工牌上的文字也多為亂碼,簡(jiǎn)單說(shuō)就是大的邏輯關(guān)系和畫(huà)面把握得比較好,但是細(xì)節(jié)的處理還不夠細(xì)膩。
另外,自動(dòng)分鏡與自動(dòng)運(yùn)鏡屬于AI生成視頻模型中的高階動(dòng)態(tài)調(diào)控能力,如果生成畫(huà)面能夠自主完成畫(huà)面視角切換與鏡頭跟隨,能大幅提升成片的鏡頭流暢度與氛圍感。
為此開(kāi)機(jī)實(shí)驗(yàn)室也設(shè)置了一組場(chǎng)景來(lái)檢查HappyHorse1.0該項(xiàng)能力。以下為指令
一縷陽(yáng)光穿過(guò)未完全拉開(kāi)的亞麻窗簾,投射正在煮咖啡的年輕女性臉上。鏡頭慢慢推進(jìn)展現(xiàn)她側(cè)臉。當(dāng)她伸手時(shí),自動(dòng)切換至低角度跟隨她的手打開(kāi)柜門(mén),緊接著轉(zhuǎn)為過(guò)肩視角,透過(guò)她的肩膀看到客廳里小孩在地毯上玩樂(lè)高。當(dāng)咖啡機(jī)傳來(lái)“叮”的一聲,畫(huà)面快切為一個(gè)微距大特寫(xiě)——一滴深褐色濃縮咖啡滴入透明玻璃杯,激起小氣泡。
![]()
生成視頻能在一些敘事節(jié)點(diǎn)自主決策切換鏡頭,不同景別的選擇也相對(duì)合理,但存在部分鏡頭與劇情匹配度不高和畫(huà)面不夠流暢的地方。
再來(lái)一段具有懸疑氣質(zhì)的連續(xù)敘事:
一位穿棕色皮夾克、扎馬尾的私家偵探在雨夜推開(kāi)后巷廢棄汽車(chē)旁的一扇鐵門(mén)。全景是后巷環(huán)境、廢棄汽車(chē)、鐵門(mén)位置,偵探緩緩?fù)崎T(mén)進(jìn)入。中景跟進(jìn),偵探跨過(guò)門(mén)檻,抬手摘下墨鏡,露出警惕的眼神。快速切至室內(nèi)低角度鏡頭,畫(huà)面中出現(xiàn)一個(gè)背對(duì)鏡頭的模糊人影(敵方),偵探停步,對(duì)峙感形成。
![]()
這段指令的難點(diǎn)在于,需精準(zhǔn)把控“全景交代環(huán)境→中景跟拍動(dòng)作→特寫(xiě)傳遞情緒”的連貫鏡頭敘事邏輯,同時(shí)保證各鏡頭間的時(shí)間銜接、空間方位無(wú)任何違和與矛盾。測(cè)試下來(lái),模型基本復(fù)刻了這一敘事節(jié)奏,更值得肯定的是,鏡頭運(yùn)鏡的切換、角度的選擇,均與懸疑氛圍高度契合,精準(zhǔn)烘托出緊張壓抑的對(duì)峙張力。
總體而言,HappyHorse 1.0在當(dāng)前AI視頻生成模型中展現(xiàn)出較強(qiáng)的綜合競(jìng)爭(zhēng)力,尤其在人物一致性和基礎(chǔ)運(yùn)動(dòng)還原上已達(dá)到較高水準(zhǔn),自動(dòng)分鏡能力也初步具備了實(shí)用價(jià)值。但在極端物理場(chǎng)景的真實(shí)感、畫(huà)面微觀細(xì)節(jié)的精確度,以及分鏡節(jié)奏的穩(wěn)定性上,仍存在可感知的不足。
好消息是,對(duì)于內(nèi)容創(chuàng)作者而言,它已經(jīng)是一個(gè)值得關(guān)注的生產(chǎn)力工具,但若要?jiǎng)偃胃呔取?qiáng)敘事的專(zhuān)業(yè)影視制作,還需要進(jìn)一步迭代。
價(jià)格上,HappyHorse官網(wǎng)新用戶(hù)享一定免費(fèi)額度(以贈(zèng)送積分方式),720P、1080P視頻刊例價(jià)分別定為0.9元/秒、1.6元/秒,專(zhuān)業(yè)會(huì)員包月價(jià)格疊加限時(shí)折扣后為0.44元/秒和0.78元/秒,商用門(mén)檻進(jìn)一步降低。
同為AI視頻生成模型,字節(jié)Seedance 2.0則是按Token計(jì)費(fèi),據(jù)火山引擎官網(wǎng),Seedance2.0輸出分辨率為720P的情況下,包含視頻輸入的價(jià)格是28元/百萬(wàn)tokens,不含視頻輸入的價(jià)格是46元/百萬(wàn)tokens。
按照此前媒體測(cè)算,在Seedance 2.0生成15秒視頻,需要消耗30.888萬(wàn)tokens,最終折合每秒1元。如果簡(jiǎn)單對(duì)比,HappyHorse相比Seedance2.0在視頻生成價(jià)格上每秒大概有一毛錢(qián)優(yōu)勢(shì)。不過(guò)費(fèi)用最終還是會(huì)取決于視頻的復(fù)雜程度,畢竟兩者計(jì)費(fèi)體系完全不同。
阿里更明確的意圖體現(xiàn)在生態(tài)卡位上。HappyHorse在移動(dòng)端嵌入千問(wèn)App,PC 端開(kāi)放創(chuàng)作網(wǎng)頁(yè)版,形成面向普通用戶(hù)與創(chuàng)作者的雙入口。同時(shí),阿里悟空、Mulerun、JVS Claw等Agent平臺(tái)率先完成接入,ZeroCut AI、巨日祿AI、LibTV-official等AI創(chuàng)作平臺(tái)也宣布已接入HappyHorse1.0.生態(tài)擴(kuò)張速度加快。
HappyHorse 1.0的亮相,與其說(shuō)是一場(chǎng)價(jià)格革命,不如說(shuō)是阿里在AI視頻賽道的一次生態(tài)級(jí)入場(chǎng)——用模型能力敲門(mén),用平臺(tái)生態(tài)占位。至于它能否真正攪動(dòng)格局,答案或許在于,接下來(lái)有多少創(chuàng)作者愿意把它放進(jìn)自己的工作流中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.