網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

內(nèi)部賽馬，外部結(jié)盟，大廠掀AI風(fēng)暴，大模型是原生好還是嫁接好？

2026-05-06 14:32:05　來(lái)源: 阿尢說(shuō)歷史

河南舉報(bào)

分享至

最近刷AI圈是不是被大廠的密集動(dòng)作晃暈了？阿里騰訊字節(jié)都在把AI往自家全產(chǎn)品線嵌，一邊內(nèi)部賽馬逼著團(tuán)隊(duì)快速試錯(cuò)，一邊拉著AI初創(chuàng)公司合作綁定。這么熱鬧的AI軍備競(jìng)賽背后，藏著一個(gè)沒(méi)人敢拍板的核心問(wèn)題，多模態(tài)大模型到底從零做出來(lái)好，還是拼模塊改出來(lái)香？這事嘴炮說(shuō)不清楚，答案藏在一個(gè)代號(hào)叫「鐵鍋燉」的代碼庫(kù)里。

這個(gè)項(xiàng)目代號(hào)聽(tīng)著就很接地氣，甚至有點(diǎn)隨性，縮寫TGD被成員直接調(diào)侃成鐵鍋燉。名字離譜不代表東西不靠譜，它背后藏著AI圈最實(shí)在的研發(fā)邏輯：不管理論吹得有多天花亂墜，做出來(lái)跑通了才算數(shù)，就像燉菜一樣，食材放進(jìn)去開(kāi)火燜，熟了好不好吃一口就嘗出來(lái)。AI開(kāi)發(fā)也是這個(gè)理，再精巧的架構(gòu)設(shè)計(jì)，不拿真實(shí)數(shù)據(jù)算力燉一遍，誰(shuí)也不知道它值不值錢。

現(xiàn)在圈內(nèi)最主流多模態(tài)大模型，基本就是兩種完全不同的玩法。一種就是大家說(shuō)的嫁接訓(xùn)練。先用巨量文本喂出一個(gè)成熟的語(yǔ)言大模型，等它會(huì)聽(tīng)懂會(huì)生成文字了，再把圖像這類視覺(jué)數(shù)據(jù)加進(jìn)去，整個(gè)適配層微調(diào)一下，就讓原本只會(huì)玩文字的模型學(xué)會(huì)看圖。

這種玩法最大的好處就是省事省錢，語(yǔ)言模型的底座已經(jīng)搭好了，只需要額外掏點(diǎn)算力處理新模態(tài)的數(shù)據(jù)，開(kāi)發(fā)周期短出成果快。不少團(tuán)隊(duì)資源有限或者要趕著上線產(chǎn)品，基本都會(huì)選這條路走，換作是你也會(huì)選，畢竟先上車再說(shuō)補(bǔ)票的事嘛。

另一種玩法就是原生訓(xùn)練，從第一天開(kāi)始，就把文本圖像音頻各種類型的數(shù)據(jù)混在一起喂給模型，讓它從頭開(kāi)始自己學(xué)不同模態(tài)之間的關(guān)聯(lián)。整個(gè)訓(xùn)練是端到端走下來(lái)的，所有參數(shù)同步優(yōu)化，一點(diǎn)偷懶的空間都沒(méi)有。

這種方式對(duì)算力數(shù)據(jù)質(zhì)量還有工程能力要求都高到離譜，成本可能是嫁接方式的幾倍甚至十倍。但好處也擺在這里，模型內(nèi)部結(jié)構(gòu)更統(tǒng)一，不同模態(tài)之間的對(duì)齊更自然，整體性能的上限比嫁接的高很多。Google的Gemini就是典型的原生訓(xùn)練產(chǎn)物，它在多模態(tài)理解任務(wù)上的亮眼表現(xiàn)，已經(jīng)給這條路的長(zhǎng)期價(jià)值蓋了章。

這事不只發(fā)生在大模型上，做硬件智能體比如機(jī)器人，也逃不開(kāi)這個(gè)選擇。現(xiàn)在不少機(jī)器人系統(tǒng)用的就是模塊化拼接的思路，視覺(jué)識(shí)別是一套，路徑規(guī)劃是另一套，運(yùn)動(dòng)控制又是單獨(dú)的一套。各個(gè)模塊分開(kāi)跑，靠預(yù)設(shè)的接口傳信息。

這種方式開(kāi)發(fā)效率高，每個(gè)模塊還能單獨(dú)優(yōu)化升級(jí)，怎么看都很省心。但問(wèn)題也很明顯，模塊之間容易出現(xiàn)溝通障礙。比如視覺(jué)系統(tǒng)已經(jīng)識(shí)別出障礙物了，結(jié)果決策系統(tǒng)因?yàn)檠舆t或者格式不匹配沒(méi)及時(shí)反應(yīng)，最后機(jī)器人直接撞上去，這不就尷尬了。這種割裂感，讓整個(gè)系統(tǒng)看起來(lái)笨笨的，一點(diǎn)都不協(xié)調(diào)。

原生一體化的機(jī)器人設(shè)計(jì)就不一樣了，從底層架構(gòu)開(kāi)始，就把感知思考行動(dòng)當(dāng)成一個(gè)整體來(lái)做。傳感器的數(shù)據(jù)直接流去統(tǒng)一的決策網(wǎng)絡(luò)，控制指令也同一個(gè)系統(tǒng)生成。所有環(huán)節(jié)在一個(gè)框架下協(xié)同干活，信息流得順，反應(yīng)也更敏捷。

這種設(shè)計(jì)難度大前期投入高，可一旦做成功，機(jī)器人的行為就會(huì)更接近人類的直覺(jué)反應(yīng)，不是好幾個(gè)零件勉強(qiáng)湊一起干活，而是像一個(gè)有機(jī)體那樣自然運(yùn)作。這和多模態(tài)模型的選擇邏輯一模一樣，選短期效率還是押注長(zhǎng)期體驗(yàn)，全看你的目標(biāo)是什么。

要是只做特定場(chǎng)景下的工具型機(jī)器人，模塊拼接就完全夠用了。要是目標(biāo)是做通用智能體，那原生一體化基本就是必須走的路，繞不開(kāi)的。

不管選哪條路，最后都得落回那個(gè)最樸素的道理，實(shí)踐出真理。AI圈老說(shuō)研發(fā)是煉丹，其實(shí)就是調(diào)參訓(xùn)練看結(jié)果，一遍一遍試錯(cuò)唄。很多看著特別完美的理論，真放到真實(shí)訓(xùn)練里可能根本跑不通。一些看著粗糙的方案，反而能跑出不錯(cuò)的結(jié)果。

就說(shuō)那個(gè)鐵鍋燉項(xiàng)目，團(tuán)隊(duì)一開(kāi)始也只是抱著試試的心態(tài)，把語(yǔ)言和視覺(jué)模塊放一起訓(xùn)練。過(guò)程里踩了不知道多少坑，收斂困難顯存爆掉效果不如預(yù)期，啥問(wèn)題都遇到過(guò)。但人家沒(méi)天天坐在那爭(zhēng)論到底該不該做原生，直接動(dòng)手做實(shí)驗(yàn)試錯(cuò)。

一輪一輪迭代下來(lái)，最后燉出來(lái)的模型效果，居然還真的不錯(cuò)。這個(gè)結(jié)論比啥理論推演都管用，它告訴我們，在技術(shù)路線選擇上，過(guò)度糾結(jié)概念真沒(méi)多大意思。

核心還是得有快速試錯(cuò)的能力，有從失敗里攢經(jīng)驗(yàn)的機(jī)制，有把想法實(shí)打?qū)嵚涞氐膱?zhí)行力。大廠們搞內(nèi)部賽馬，本質(zhì)上就是在造這么一個(gè)環(huán)境，讓不同團(tuán)隊(duì)用不同方法試，誰(shuí)跑出來(lái)誰(shuí)就上。外部結(jié)盟呢，就是為了引入更多外部的新思路，避免自己關(guān)起門來(lái)陷入死胡同。

其實(shí)說(shuō)來(lái)說(shuō)去，原生好還是嫁接好，本來(lái)就沒(méi)有絕對(duì)的答案。嫁接的優(yōu)勢(shì)就是快和省，適合業(yè)務(wù)著急上線資源有限的場(chǎng)景。原生的優(yōu)勢(shì)就是強(qiáng)和穩(wěn)，適合面向未來(lái)布局追求極致體驗(yàn)的產(chǎn)品。

大廠為啥兩條線同時(shí)推進(jìn)？還不是因?yàn)樗鼈円獫M足不同維度的需求，既要守住當(dāng)下的市場(chǎng)，也要給未來(lái)留足可能性。不管走哪條路，都繞不開(kāi)「燉」這個(gè)動(dòng)作。再好的食材，不放進(jìn)鍋里開(kāi)火燉，永遠(yuǎn)成不了一盤菜。再完美的架構(gòu)，不經(jīng)過(guò)真實(shí)數(shù)據(jù)訓(xùn)練和用戶場(chǎng)景打磨，也只是一張寫滿構(gòu)想的白紙。

AI發(fā)展到現(xiàn)在，本來(lái)就是一場(chǎng)拼實(shí)力拼耐心的長(zhǎng)跑。那些愿意沉下心慢慢燉的團(tuán)隊(duì)，才最有可能端出真正讓人驚艷的好菜。現(xiàn)在這場(chǎng)大廠掀起的AI風(fēng)暴，表面看是戰(zhàn)略資本人才的較量，往深了說(shuō)其實(shí)是方法論和耐心的比拼。

內(nèi)部賽馬能激發(fā)創(chuàng)新活力，外部結(jié)盟能拓展能力邊界，最后能贏的，肯定不是口號(hào)喊得最響的那家，而是能把想法踏踏實(shí)實(shí)燉熟端上桌的那一個(gè)。

參考資料：新華網(wǎng) 中國(guó)人工智能大模型發(fā)展觀察

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.