網易首頁 > 網易號 > 正文申請入駐

內部賽馬，外部結盟，大廠掀AI風暴，大模型是原生好還是嫁接好？

2026-05-06 15:02:05　來源: 溫讀史

河南舉報

分享至

最近是不是刷到不少大廠的AI新動態？一會兒這家宣布全產品線嵌AI，一會兒那家發新多模態模型，熱鬧得像開春趕大集。但你有沒有想過，大廠做模型其實走的是完全不同的兩條路子，一個從零開始攢，一個在原有基礎上拼，到底哪個更靠譜？今天咱們就嘮透這件事。

現在國內頭部的幾家科技大廠，最近幾個月的動作密度拉得滿滿當當。對內基本都用上了內部賽馬的機制，不同團隊各闖各的路快速試錯，誰跑成了就推誰的成果。對外又忙著投資或者合作，綁定一批有潛力的AI初創公司，相當于自己干還拉著小伙伴一起干。這種“兩手抓”的玩法，已經把整個行業的競爭格局改得差不多了。

熱鬧背后藏著一個挺核心的問題，做多模態大模型，到底是從零開始一體化訓練效果更好，還是在現有成熟模型基礎上拼接模塊更劃算？這個問題不是紙上談兵的空問題，答案其實藏在一個代號特別接地氣的項目里。這個項目代號縮寫是TGD，團隊直接戲稱為“鐵鍋燉”，聽著就不像那種高高在上的黑科技項目，反倒像東北館子剛端上來的硬菜。

名字看著隨意，背后的研發思路其實特別實在。不管你理論講得有多天花亂墜，東西做出來能順暢跑起來，才算真本事，就像燉菜，火候夠時間夠，才能出香入味。AI研發也是一個道理，架構圖畫得再精巧，不經過真實數據和算力的燉煮，誰也說不準它到底能不能打。

現在主流做多模態大模型，就分兩種完全不同的玩法。一種就是“嫁接訓練”。先用海量的文本數據訓練出一個成熟的語言模型，等它徹底摸透語言的理解和生成邏輯之后，再把圖像、這些視覺數據加進來，做個適配層微調一下，讓原本只會玩文字的模型學會“看圖”。

這種方法最大的優點就是省心又省錢。語言模型的基礎已經打好了，只需要額外投入一部分算力處理新模態的數據就行。開發周期短，見效快，沒幾個月就能拿出能用的產品。很多團隊資源有限，或者趕著上線搶市場，基本都會選這個路子。

另一種就是原生訓練，從根上思路就不一樣。從訓練第一天開始，就把文本、圖像、音頻所有類型的數據混在一起喂給模型，讓它從頭開始學習不同模態之間的關聯。整個訓練是端到端完成的，所有參數同步優化調整。

這種方法對算力、數據質量和工程能力的要求特別高，成本可能是嫁接方式的好幾倍甚至十倍，一般玩家真玩不起。但好處也實打實，模型內部結構更統一，不同模態之間的對齊更自然，整體性能的上限要高出不少。谷歌的Gemini就是典型的原生訓練產物，它在多模態理解任務上的亮眼表現，已經給這條路的長期價值做了證明。

這兩條路子真沒有絕對的對錯，只有適不適合的區別。嫁接適合搶時間打快仗，原生適合沉下心謀長遠。這種思路差異，不只存在大模型研發里，做硬件智能體比如機器人的時候，也繞不開一樣的選擇。

現在不少機器人項目用的都是模塊化拼裝的思路，視覺識別是一套獨立系統，路徑規劃是另一套，運動控制又是單獨分開的。各個模塊各自運行，靠預設好的接口傳遞信息。這種方式開發效率高，每個模塊還能單獨優化升級，確實省不少事。

但問題也挺突出，模塊之間很容易出“溝通障礙”。比如視覺系統已經識別出前方有障礙物，結果決策系統因為延遲或者格式不匹配，沒能及時接收到信息做出反應，最后直接讓機器人撞了上去。這種割裂感，會讓整個系統用起來顯得笨重又不協調。

原生一體化的機器人設計就不一樣，從底層架構開始，就把感知、思考、行動當成一個完整整體來構建。傳感器采集的數據直接流入統一的決策網絡，控制指令也由同一個系統生成。所有環節都在同一個框架下協同，信息流動更順暢，反應也更敏捷。

這種設計難度大，前期投入高，可真要是做成功了，機器人的行為會特別接近人類的直覺反應，不是一堆零件勉強湊在一起配合，而是像一個有機體一樣自然運作。這和多模態大模型的選擇邏輯完全一致，你追求短期效率，還是押注長期體驗，全看你的目標是什么。

要是只做特定場景下的工具型機器人，模塊化拼接完全夠用。要是目標是做通用智能體，那原生一體化幾乎就是繞不開的必經之路。不管選哪條路，最終都要回到一個最樸素的原則，干了才知道。

AI圈里常說研發就是“煉丹”，說白了就是調參、訓練、看結果，不對就改，反復試錯。很多聽起來特別完美的理論，放到真實訓練里可能根本跑不通。一些看著粗糙的方案，反倒能跑出出人意料的好效果。

就說那個“鐵鍋燉”項目，團隊一開始也只是抱著試試看的心態，把語言和視覺模塊放在一起訓練。過程里遇到過收斂困難、顯存爆掉、效果不如預期各種問題，糟心事一件接一件。但他們沒坐著爭論“原生好還是嫁接好”，直接動手做實驗一輪輪迭代。

一輪輪調下來，最后發現“燉出來”的模型效果其實還蠻不錯。這個結論比任何理論推演都有說服力，說白了選技術路線，過度糾結概念真沒多大意思。關鍵得有快速試錯的能力，有從失敗里攢經驗的機制，有把想法落地的執行力。

大廠搞內部賽馬，本質上就是在造這樣的環境，讓不同團隊用不同方法去試，誰跑出來誰上。外部搞結盟，就是為了引入更多不一樣的思路，避免悶頭自己干陷入思維死胡同。繞回最開始的問題，大模型是原生好還是嫁接好？

答案其實挺明白，都有優勢，也都有局限。嫁接的優勢是快和省，適合業務急需、資源有限的場景。原生的優勢是強和穩，適合面向未來、追求極致體驗的產品。大廠之所以兩條線同時推進，還不是因為要扛住當下的市場競爭，也要布局未來的可能性，兩邊都不能丟。

但不管走哪條路，都跳不開“燉”這個步驟。再好的食材，不放進鍋里開火燉煮，永遠成不了一盤好菜。再完美的架構，不經過真實數據訓練和用戶場景打磨，永遠只是紙面構想。AI的發展，本來就是一場講實干的長跑。那些愿意沉下心慢慢燉的玩家，才最有可能端出真正拿得出手的好菜。

現在這場大廠掀起來的AI風暴，表面看拼的是戰略、資本和人才，往深了說其實拼的是方法論和耐心。內部賽馬激發創新活力，外部結盟拓展能力邊界，最后勝出的，不會是口號喊得最響的那家，而是能把想法踏踏實實燉熟出結果的那一個。

參考資料

人民日報《我國人工智能大模型創新發展取得積極進展》

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.