最近刷AI圈是不是被大廠的密集動(dòng)作晃暈了?阿里騰訊字節(jié)都在把AI往自家全產(chǎn)品線嵌,一邊內(nèi)部賽馬逼著團(tuán)隊(duì)快速試錯(cuò),一邊拉著AI初創(chuàng)公司合作綁定。這么熱鬧的AI軍備競(jìng)賽背后,藏著一個(gè)沒(méi)人敢拍板的核心問(wèn)題,多模態(tài)大模型到底從零做出來(lái)好,還是拼模塊改出來(lái)香?這事嘴炮說(shuō)不清楚,答案藏在一個(gè)代號(hào)叫「鐵鍋燉」的代碼庫(kù)里。
![]()
這個(gè)項(xiàng)目代號(hào)聽(tīng)著就很接地氣,甚至有點(diǎn)隨性,縮寫TGD被成員直接調(diào)侃成鐵鍋燉。名字離譜不代表東西不靠譜,它背后藏著AI圈最實(shí)在的研發(fā)邏輯:不管理論吹得有多天花亂墜,做出來(lái)跑通了才算數(shù),就像燉菜一樣,食材放進(jìn)去開(kāi)火燜,熟了好不好吃一口就嘗出來(lái)。AI開(kāi)發(fā)也是這個(gè)理,再精巧的架構(gòu)設(shè)計(jì),不拿真實(shí)數(shù)據(jù)算力燉一遍,誰(shuí)也不知道它值不值錢。
現(xiàn)在圈內(nèi)最主流多模態(tài)大模型,基本就是兩種完全不同的玩法。一種就是大家說(shuō)的嫁接訓(xùn)練。先用巨量文本喂出一個(gè)成熟的語(yǔ)言大模型,等它會(huì)聽(tīng)懂會(huì)生成文字了,再把圖像這類視覺(jué)數(shù)據(jù)加進(jìn)去,整個(gè)適配層微調(diào)一下,就讓原本只會(huì)玩文字的模型學(xué)會(huì)看圖。
這種玩法最大的好處就是省事省錢,語(yǔ)言模型的底座已經(jīng)搭好了,只需要額外掏點(diǎn)算力處理新模態(tài)的數(shù)據(jù),開(kāi)發(fā)周期短出成果快。不少團(tuán)隊(duì)資源有限或者要趕著上線產(chǎn)品,基本都會(huì)選這條路走,換作是你也會(huì)選,畢竟先上車再說(shuō)補(bǔ)票的事嘛。
![]()
另一種玩法就是原生訓(xùn)練,從第一天開(kāi)始,就把文本圖像音頻各種類型的數(shù)據(jù)混在一起喂給模型,讓它從頭開(kāi)始自己學(xué)不同模態(tài)之間的關(guān)聯(lián)。整個(gè)訓(xùn)練是端到端走下來(lái)的,所有參數(shù)同步優(yōu)化,一點(diǎn)偷懶的空間都沒(méi)有。
這種方式對(duì)算力數(shù)據(jù)質(zhì)量還有工程能力要求都高到離譜,成本可能是嫁接方式的幾倍甚至十倍。但好處也擺在這里,模型內(nèi)部結(jié)構(gòu)更統(tǒng)一,不同模態(tài)之間的對(duì)齊更自然,整體性能的上限比嫁接的高很多。Google的Gemini就是典型的原生訓(xùn)練產(chǎn)物,它在多模態(tài)理解任務(wù)上的亮眼表現(xiàn),已經(jīng)給這條路的長(zhǎng)期價(jià)值蓋了章。
![]()
這事不只發(fā)生在大模型上,做硬件智能體比如機(jī)器人,也逃不開(kāi)這個(gè)選擇。現(xiàn)在不少機(jī)器人系統(tǒng)用的就是模塊化拼接的思路,視覺(jué)識(shí)別是一套,路徑規(guī)劃是另一套,運(yùn)動(dòng)控制又是單獨(dú)的一套。各個(gè)模塊分開(kāi)跑,靠預(yù)設(shè)的接口傳信息。
這種方式開(kāi)發(fā)效率高,每個(gè)模塊還能單獨(dú)優(yōu)化升級(jí),怎么看都很省心。但問(wèn)題也很明顯,模塊之間容易出現(xiàn)溝通障礙。比如視覺(jué)系統(tǒng)已經(jīng)識(shí)別出障礙物了,結(jié)果決策系統(tǒng)因?yàn)檠舆t或者格式不匹配沒(méi)及時(shí)反應(yīng),最后機(jī)器人直接撞上去,這不就尷尬了。這種割裂感,讓整個(gè)系統(tǒng)看起來(lái)笨笨的,一點(diǎn)都不協(xié)調(diào)。
![]()
原生一體化的機(jī)器人設(shè)計(jì)就不一樣了,從底層架構(gòu)開(kāi)始,就把感知思考行動(dòng)當(dāng)成一個(gè)整體來(lái)做。傳感器的數(shù)據(jù)直接流去統(tǒng)一的決策網(wǎng)絡(luò),控制指令也同一個(gè)系統(tǒng)生成。所有環(huán)節(jié)在一個(gè)框架下協(xié)同干活,信息流得順,反應(yīng)也更敏捷。
這種設(shè)計(jì)難度大前期投入高,可一旦做成功,機(jī)器人的行為就會(huì)更接近人類的直覺(jué)反應(yīng),不是好幾個(gè)零件勉強(qiáng)湊一起干活,而是像一個(gè)有機(jī)體那樣自然運(yùn)作。這和多模態(tài)模型的選擇邏輯一模一樣,選短期效率還是押注長(zhǎng)期體驗(yàn),全看你的目標(biāo)是什么。
要是只做特定場(chǎng)景下的工具型機(jī)器人,模塊拼接就完全夠用了。要是目標(biāo)是做通用智能體,那原生一體化基本就是必須走的路,繞不開(kāi)的。
![]()
不管選哪條路,最后都得落回那個(gè)最樸素的道理,實(shí)踐出真理。AI圈老說(shuō)研發(fā)是煉丹,其實(shí)就是調(diào)參訓(xùn)練看結(jié)果,一遍一遍試錯(cuò)唄。很多看著特別完美的理論,真放到真實(shí)訓(xùn)練里可能根本跑不通。一些看著粗糙的方案,反而能跑出不錯(cuò)的結(jié)果。
就說(shuō)那個(gè)鐵鍋燉項(xiàng)目,團(tuán)隊(duì)一開(kāi)始也只是抱著試試的心態(tài),把語(yǔ)言和視覺(jué)模塊放一起訓(xùn)練。過(guò)程里踩了不知道多少坑,收斂困難顯存爆掉效果不如預(yù)期,啥問(wèn)題都遇到過(guò)。但人家沒(méi)天天坐在那爭(zhēng)論到底該不該做原生,直接動(dòng)手做實(shí)驗(yàn)試錯(cuò)。
![]()
一輪一輪迭代下來(lái),最后燉出來(lái)的模型效果,居然還真的不錯(cuò)。這個(gè)結(jié)論比啥理論推演都管用,它告訴我們,在技術(shù)路線選擇上,過(guò)度糾結(jié)概念真沒(méi)多大意思。
核心還是得有快速試錯(cuò)的能力,有從失敗里攢經(jīng)驗(yàn)的機(jī)制,有把想法實(shí)打?qū)嵚涞氐膱?zhí)行力。大廠們搞內(nèi)部賽馬,本質(zhì)上就是在造這么一個(gè)環(huán)境,讓不同團(tuán)隊(duì)用不同方法試,誰(shuí)跑出來(lái)誰(shuí)就上。外部結(jié)盟呢,就是為了引入更多外部的新思路,避免自己關(guān)起門來(lái)陷入死胡同。
其實(shí)說(shuō)來(lái)說(shuō)去,原生好還是嫁接好,本來(lái)就沒(méi)有絕對(duì)的答案。嫁接的優(yōu)勢(shì)就是快和省,適合業(yè)務(wù)著急上線資源有限的場(chǎng)景。原生的優(yōu)勢(shì)就是強(qiáng)和穩(wěn),適合面向未來(lái)布局追求極致體驗(yàn)的產(chǎn)品。
![]()
大廠為啥兩條線同時(shí)推進(jìn)?還不是因?yàn)樗鼈円獫M足不同維度的需求,既要守住當(dāng)下的市場(chǎng),也要給未來(lái)留足可能性。不管走哪條路,都繞不開(kāi)「燉」這個(gè)動(dòng)作。再好的食材,不放進(jìn)鍋里開(kāi)火燉,永遠(yuǎn)成不了一盤菜。再完美的架構(gòu),不經(jīng)過(guò)真實(shí)數(shù)據(jù)訓(xùn)練和用戶場(chǎng)景打磨,也只是一張寫滿構(gòu)想的白紙。
AI發(fā)展到現(xiàn)在,本來(lái)就是一場(chǎng)拼實(shí)力拼耐心的長(zhǎng)跑。那些愿意沉下心慢慢燉的團(tuán)隊(duì),才最有可能端出真正讓人驚艷的好菜。現(xiàn)在這場(chǎng)大廠掀起的AI風(fēng)暴,表面看是戰(zhàn)略資本人才的較量,往深了說(shuō)其實(shí)是方法論和耐心的比拼。
![]()
內(nèi)部賽馬能激發(fā)創(chuàng)新活力,外部結(jié)盟能拓展能力邊界,最后能贏的,肯定不是口號(hào)喊得最響的那家,而是能把想法踏踏實(shí)實(shí)燉熟端上桌的那一個(gè)。
參考資料:新華網(wǎng) 中國(guó)人工智能大模型發(fā)展觀察
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.