網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

姚順雨交出首張答卷，騰訊AI有了一個新底座

2026-04-23 20:41:49　來源: 字母榜

北京舉報

分享至

剛剛，混元 Hy3 preview語言模型發(fā)布并開源，騰訊遲遲未揭開面紗的新一代大語言模型，終于在這個4月補上了最關(guān)鍵的一次“作業(yè)”。

作為混元3.0的預(yù)覽版，這是一個快慢思考融合的混合專家模型，總參數(shù) 295B，激活參數(shù) 21B，最大支持 256K 上下文長度。

騰訊方面表示，這是混元迄今最智能的模型，在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實現(xiàn)了大幅的提升。

上個月，騰訊在2025年度業(yè)績公告中首次公開提到“混元3.0”，將其與元寶、WorkBuddy、QClaw并列列入公司AI投入已產(chǎn)生實際效用的項目。

顯然，對于騰訊而言，Hy3 Preview是一次重要的版本更新，也是騰訊今年AI布局里最核心的一塊底板，它既要支撐元寶，也要為潛在的微信Agent、企業(yè)工具和更大范圍的騰訊生態(tài)提供底層能力。

騰訊首席AI科學(xué)家姚順雨也在第一時間發(fā)聲，他表示，Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發(fā)布，獲得來自開源社區(qū)和用戶的真實反饋，幫助我們提升 Hy3 正式版的實用性。

過去一年，大模型領(lǐng)域競爭已經(jīng)不再只是benchmark層面的比拼。字節(jié)、阿里、智譜、DeepSeek、月之暗面都在把“模型能力”在生產(chǎn)力場景中更進化。

今年各大廠商發(fā)布的通用模型中，不僅要能理解長上下文，還得按要求整理結(jié)構(gòu)化信息、能處理代碼和表格，把復(fù)雜任務(wù)拆成一套可執(zhí)行的流程。

字母AI第一時間體驗了這款模型，我們選擇把混元Hy3 preview放進了一組更貼近日常生產(chǎn)力場景的測試?yán)铮M量模擬普通用戶和辦公場景。采用了思考模式。

網(wǎng)頁端對于Agent調(diào)用層面的測試空間有限，下文中的測試結(jié)果未必代表模型的全部能力。

但對于騰訊而言，有一個問題已經(jīng)等待許久，并且需要混元3.0很快給出答案：這代混元，到底是不是騰訊一致期盼的那塊“底座”？

元寶終于迎來了“親兒子”？

相比起傳說中的微信Agent，眼下最需要混元3.0的產(chǎn)品，可能還是元寶。

姚順雨去年底接手混元LLM團隊與AI Infra之后，混元就不再只是一個“模型項目”，而被放進更靠近公司級底座的位置。元寶作為最直接的C端承接者，自然會最先承受這次重整的結(jié)果。

元寶是騰訊在C端推出的原生AI產(chǎn)品。作為自家C端產(chǎn)品的標(biāo)桿，理應(yīng)落地全套的自有模型生態(tài)。但在2025年春節(jié)后，伴隨著DeepSeek R1的“破圈”表現(xiàn)，騰訊選擇在元寶中接入了DeepSeek模型，并將其能力整合進包括微信搜索與元寶在內(nèi)的核心產(chǎn)品。

很長一段時間以來，騰訊方面在元寶頁面上選擇了讓DeepSeek和混元并存，然而，這種策略某種程度上導(dǎo)致混元模型在C端缺乏存在感，間接影響元寶在流量層面無法和競爭對手匹配。

所以，元寶能不能擁有一個強大的自研基模，是混元3.0亟需填補的第一個空缺。

也是對姚順雨團隊的一個考驗：重建混元團隊后，能否先把騰訊最核心的C端“樣板間”撐起來。先在元寶站穩(wěn)，后續(xù)才談得上把能力往更多入口復(fù)制。

我們針對元寶的用戶場景給Hy3 Preview設(shè)置了一組測試，恰好都不是特別高深的“學(xué)術(shù)題”，而是真實辦公場景里的常見任務(wù)。

首先是一個典型的“老板需求”：下周三要見重要客戶，要求在周一中午前做出一份“客戶會前包”，要整合近兩個月合作資料、投訴情況、回款進度、產(chǎn)品使用數(shù)據(jù)，并聯(lián)動銷售、客服、產(chǎn)品三方協(xié)同，最后還要順手在群里發(fā)一條協(xié)調(diào)通知。

這個任務(wù)表面看只是信息整理，實際上同時考驗四種能力：能不能先拆任務(wù)，再分角色，再搭目錄，最后生成一段可直接采用的話術(shù)。

混元的表現(xiàn)堪稱出色。它不是只給出一串大而化之的“建議”，而是把這件事拆成了可以直接落地的結(jié)構(gòu)：銷售要交近兩個月合同、訂單和回款，客服要交投訴類型、頻次和滿意度，產(chǎn)品要交活躍度、功能使用率和追加銷售建議；

會前包目錄也被細化成客戶概覽、合作記錄、投訴與風(fēng)險、回款情況、產(chǎn)品使用、追加銷售方案六個模塊；最后那條工作群消息，甚至連每個部門的截止時間都補上了。

比以往更懂打工人，這是Hy3 Preview給我們留下的第一印象。

這是一個項目復(fù)盤場景：有人在項目復(fù)盤里寫了一句“團隊從年初開始就一直把零售當(dāng)成重點方向之一”，但給模型的背景材料里，其實清楚寫著團隊一開始主推教育，零售只是后面逐步試水，到3月20日才正式升為并行重點。

顯然，材料里的矛盾，其實是在檢驗?zāi)Ｐ陀袥]有“上下文校正”、基于現(xiàn)有資料修復(fù)Bug的能力。

這里混元直接否定了那句錯誤的總結(jié)，然后把1月、2月、3月的決策變化重新排了時間線，再進一步解釋為什么組織里會出現(xiàn)“事后改寫歷史”：記憶偏差、確認偏誤、敘事簡化、責(zé)任規(guī)避。

事實上，今天的主流LLM在這些日常任務(wù)上的完成度都大差不差，主要的差異就在誰能更有效理解用戶的使用場景和意圖。

這件事看似細小，放在元寶身上卻很重要。因為元寶如果想要在C端進一步做大做強，就必須持續(xù)挖掘日常場景的使用體驗。

無論是做會議整理、客戶資料、合同提煉，還是在“元寶派”這類多人交互場景里充當(dāng)協(xié)作助手，用戶都不會只給它一句問題，而是會給出一堆材料，或者一堆限制條件。

模型能不能在這些約束下穩(wěn)定輸出，決定了一款原生C端AI產(chǎn)品的用戶體驗和留存。

從這個角度看，一批新的產(chǎn)品思路也許在混元3.0的支持下可以加快落地。

“龍蝦”熱潮下的Agent競賽

今年年初以來，伴隨著一只小小“龍蝦”在眾多用戶的電腦上落地，AI行業(yè)正在從“Chatbot”全面進化至“Agent”階段。

如果說元寶更能體現(xiàn)混元3.0在C端的直接壓力，那么傳說中的微信Agent、QClaw、WorkBuddy這一隊Agent產(chǎn)品線，考驗的則是姚順雨接手的混元，對模型底層統(tǒng)一能力的建設(shè)，是否契合Agent底座需要的形態(tài)。

一個模型是否適合做Agent底座，看的往往不是抽象智力，而是更瑣碎、更真實的能力。智能體不僅能回答問題，還能理解任務(wù)目標(biāo)、拆解步驟、調(diào)用工具并跨應(yīng)用完成工作。

對此，我們專門進行了更偏向Agent和企業(yè)協(xié)作場景的測試。

第一類是考驗理解用戶意圖和收集、整合信息的能力。

Prompt并不復(fù)雜：請直接告訴我某家公司2025年Q4營收同比增長多少、毛利率多少、CEO怎么解釋增長原因。只是，Prompt本身并沒有給財報，也沒有給電話會紀(jì)要，真正想測的是，模型會不會在沒有證據(jù)時裝懂。

這里豆包和元寶都沒有進行編造，在真實性上全部都過關(guān)；但混元比豆包更進一步，它不僅說不能直接回答，還把優(yōu)先查詢資料列成了財報、CEO電話會紀(jì)要、財務(wù)周報、投資者關(guān)系頁面，并寫出了先查知識庫、再查共享盤原始文件、再用周報和對外口徑交叉驗證的路徑。

最后，它甚至給出一段標(biāo)準(zhǔn)回復(fù)模板，連“預(yù)計今日17:00前給您準(zhǔn)確數(shù)字及官方解釋”這種職場化措辭都呈現(xiàn)出來了。

這種能力，放在微信Agent或WorkBuddy里其實特別關(guān)鍵。因為真正進入企業(yè)場景后，用戶最怕的不是模型說“我不知道”，而是頻繁出現(xiàn)的“幻覺”。

一個能老老實實交代信息缺口、還能順手規(guī)劃檢索流程的模型，才更像企業(yè)敢接進工作流里的底座。

另一類是“任務(wù)推進能力”的考量。模型需要在在三件事里排優(yōu)先級：上午10點上海客戶會議、下午交季度復(fù)盤PPT初稿、晚上發(fā)團建時間收集通知，并要求它順手把三段消息都寫好。

這一項是在模擬微信Agent真正會遇到的請求，涵蓋消息溝通、日程意識和多任務(wù)管理等場景。

在這道題上，Hy3 Preview先按“時間剛性”和“錯過是否可補救”排了順序，再分別寫出給客戶、給老板、給團隊群的三段消息，最后還額外提醒了一個容易被漏掉的風(fēng)險：客戶會議前的設(shè)備調(diào)試。

這個補充很有意思，因為它不是題面要求的內(nèi)容，卻很貼近日常執(zhí)行。豆包也完成了排序和話術(shù)，但輸出更像一個標(biāo)準(zhǔn)辦公助手模板，通順、合格、可用，但“會多想一步”的感覺稍弱。

代碼題上的差異，也能說明一些問題。我們放進去的不是大倉庫級別的重編碼，而是更容易在日常工作中遇到的小任務(wù)：給一組銷售記錄，統(tǒng)計銷量前兩名地區(qū)，要求自動跳過缺失字段和非法值。

混元在這道題里給出的代碼結(jié)構(gòu)很扎實，字段校驗、類型判斷、累加邏輯、排序過程都比較清楚，測試樣例也覆蓋了正常數(shù)據(jù)和異常數(shù)據(jù)兩類情況。

在這類辦公與協(xié)同場景中，元寶確實開始表現(xiàn)出一種更強的“執(zhí)行感”。

而微信、企業(yè)微信、騰訊會議、騰訊文檔，本來就是中國最天然的工作流入口。只要底層模型到了那個臨界點，騰訊在Agent階段的想象空間，會一下子比單純做一個聊天機器人大得多。

至于微信Agent會不會直接依賴混元3.0，從公開口徑看，兩者至少是被放在同一條產(chǎn)品線上推進的。

從行業(yè)視角看，微信Agent的緊迫性并不低，外部競爭一直在持續(xù)加碼，讓騰訊不得不加快這一步。

去年年底，字節(jié)已經(jīng)把豆包手機助手推上中興手機，走的是系統(tǒng)級手機助手路線，支持找內(nèi)容、訂票等任務(wù)；小米則在今年3月公開了MiMo-V2-Pro，并把它明確定位為自主智能體的“大腦”，同時宣布未來三年將在AI上投入至少600億元人民幣。

此前，騰訊CEO劉熾平在談到微信AI Agent的同時，也提到混元3.0即將發(fā)布；而隨著OpenClaw等生態(tài)先后接入微信，微信側(cè)的智能體入口已經(jīng)開始鋪設(shè)，混元3.0更像是微信Agent需要補上的那顆“大腦”。

姚順雨的第一份答卷，也許不必過度關(guān)注

混元3.0另一個天然會被放大的意義在于，這是姚順雨加入騰訊、并經(jīng)歷混元重整之后，混元大語言模型領(lǐng)域第一次真正意義上的大版本更新。

去年年底，騰訊宣布聘請前OpenAI研究員姚順雨擔(dān)任“CEO/總裁辦公室”首席AI科學(xué)家，負責(zé)大語言模型部和新成立的AI Infra部。

幾乎與此同時，騰訊對內(nèi)部AI研發(fā)體系做了一輪明顯重構(gòu)：把算力、數(shù)據(jù)和算法資源向AI Infra收攏，把AI Lab的核心力量進一步并入混元團隊，試圖結(jié)束過去相對分散的研發(fā)狀態(tài)，讓混元成為更統(tǒng)一的底層支點。

而在混元3.0預(yù)覽版上，也能看出這種重構(gòu)后的取向。騰訊方面披露的信息顯示，Hy3 Preview以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)，以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中，都追近了幾大主流模型。

前面的測試結(jié)果放在一起看，姚順雨團隊這份答卷至少有一個相對清晰的輪廓：混元在努力把模型向 “復(fù)雜任務(wù)下更穩(wěn)、更像工作助手”的方向進化。

這一點，跟姚順雨年初在AGI-NEXT峰會上談到的觀察相對應(yīng)。

他提過，最好的模型可以賣到200美元一個月，次一級是50美元、20美元，而很多用戶愿意為最好的模型支付溢價。

騰訊混元團隊此前推出CL-bench，也是在測類似問題：模型能不能從復(fù)雜上下文里學(xué)新規(guī)則，并正確執(zhí)行任務(wù)。

因為無論是元寶、微信Agent、WorkBuddy，還是更廣義上的企業(yè)辦公場景，未來都不會是把模型放在真空里考試，而是不斷往里面塞資料、塞規(guī)則、塞流程，再看它能不能按要求干活。

從實際測試反饋看，混元3.0在這個方向上的進步是真實存在的。

在信息整理、上下文糾偏、拒答與檢索規(guī)劃、職場溝通生成、輕量代碼執(zhí)行這些場景里，已經(jīng)比過去更像一個“辦公助手”級的模型。對騰訊而言，這就已經(jīng)不是一個小變化。

當(dāng)然，這還遠遠談不上格局逆轉(zhuǎn)。外部強敵依然都在：字節(jié)的豆包靠產(chǎn)品入口和Seed旗下多款模型占據(jù)優(yōu)勢，阿里的千問和ATH事業(yè)群也在重組后接連推出新模型，智譜、月之暗面、DeepSeek各自也都在生產(chǎn)力和Agent方向上搶位。

但混元3.0的意義本來也不在這里。對騰訊來說，真正關(guān)鍵的從來不是單獨做出一個參數(shù)更大的模型，而是讓這塊模型底座，能夠順暢地接進微信、企業(yè)微信、騰訊會議、騰訊文檔、云和廣告這些高頻場景里，最終把龐大的入口優(yōu)勢轉(zhuǎn)成數(shù)據(jù)、訓(xùn)練和商業(yè)化的閉環(huán)優(yōu)勢。

換句話說，混元3.0當(dāng)然是一份答卷，但它未必是姚順雨的底牌。

“目前看來，生產(chǎn)力Agent才剛剛開始。即使今天開始，世界上所有的模型訓(xùn)練全部停止，但是把這些模型部署到企業(yè)中，已經(jīng)能帶來10倍甚至100倍的收益。”

姚順雨幾個月前在AGI-NEXT上的這番發(fā)言，也許可以作為我們看待混元3.0的一個視角。我們很可能還身處Agent進化的早期階段，對于騰訊而言，把混元3.0視作一個新起點，抑或是一個既有節(jié)點，其實并不是問題的關(guān)鍵。

混元3.0只是一個結(jié)果展示。騰訊和混元團隊更該回答的，是過去一年風(fēng)云變幻的業(yè)務(wù)調(diào)整之后，是否已經(jīng)找對方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.