![]()
剛剛,混元 Hy3 preview語言模型發(fā)布并開源,騰訊遲遲未揭開面紗的新一代大語言模型,終于在這個4月補上了最關(guān)鍵的一次“作業(yè)”。
作為混元3.0的預(yù)覽版,這是一個快慢思考融合的混合專家模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長度。
騰訊方面表示,這是混元迄今最智能的模型,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實現(xiàn)了大幅的提升。
上個月,騰訊在2025年度業(yè)績公告中首次公開提到“混元3.0”,將其與元寶、WorkBuddy、QClaw并列列入公司AI投入已產(chǎn)生實際效用的項目。
顯然,對于騰訊而言,Hy3 Preview是一次重要的版本更新,也是騰訊今年AI布局里最核心的一塊底板,它既要支撐元寶,也要為潛在的微信Agent、企業(yè)工具和更大范圍的騰訊生態(tài)提供底層能力。
騰訊首席AI科學(xué)家姚順雨也在第一時間發(fā)聲,他表示,Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。
過去一年,大模型領(lǐng)域競爭已經(jīng)不再只是benchmark層面的比拼。字節(jié)、阿里、智譜、DeepSeek、月之暗面都在把“模型能力”在生產(chǎn)力場景中更進化。
今年各大廠商發(fā)布的通用模型中,不僅要能理解長上下文,還得按要求整理結(jié)構(gòu)化信息、能處理代碼和表格,把復(fù)雜任務(wù)拆成一套可執(zhí)行的流程。
字母AI第一時間體驗了這款模型,我們選擇把混元Hy3 preview放進了一組更貼近日常生產(chǎn)力場景的測試?yán)铮M量模擬普通用戶和辦公場景。采用了思考模式。
網(wǎng)頁端對于Agent調(diào)用層面的測試空間有限,下文中的測試結(jié)果未必代表模型的全部能力。
但對于騰訊而言,有一個問題已經(jīng)等待許久,并且需要混元3.0很快給出答案:這代混元,到底是不是騰訊一致期盼的那塊“底座”?
01
元寶終于迎來了“親兒子”?
相比起傳說中的微信Agent,眼下最需要混元3.0的產(chǎn)品,可能還是元寶。
姚順雨去年底接手混元LLM團隊與AI Infra之后,混元就不再只是一個“模型項目”,而被放進更靠近公司級底座的位置。元寶作為最直接的C端承接者,自然會最先承受這次重整的結(jié)果。
元寶是騰訊在C端推出的原生AI產(chǎn)品。作為自家C端產(chǎn)品的標(biāo)桿,理應(yīng)落地全套的自有模型生態(tài)。但在2025年春節(jié)后,伴隨著DeepSeek R1的“破圈”表現(xiàn),騰訊選擇在元寶中接入了DeepSeek模型,并將其能力整合進包括微信搜索與元寶在內(nèi)的核心產(chǎn)品。
很長一段時間以來,騰訊方面在元寶頁面上選擇了讓DeepSeek和混元并存,然而,這種策略某種程度上導(dǎo)致混元模型在C端缺乏存在感,間接影響元寶在流量層面無法和競爭對手匹配。
所以,元寶能不能擁有一個強大的自研基模,是混元3.0亟需填補的第一個空缺。
也是對姚順雨團隊的一個考驗:重建混元團隊后,能否先把騰訊最核心的C端“樣板間”撐起來。先在元寶站穩(wěn),后續(xù)才談得上把能力往更多入口復(fù)制。
我們針對元寶的用戶場景給Hy3 Preview設(shè)置了一組測試,恰好都不是特別高深的“學(xué)術(shù)題”,而是真實辦公場景里的常見任務(wù)。
首先是一個典型的“老板需求”:下周三要見重要客戶,要求在周一中午前做出一份“客戶會前包”,要整合近兩個月合作資料、投訴情況、回款進度、產(chǎn)品使用數(shù)據(jù),并聯(lián)動銷售、客服、產(chǎn)品三方協(xié)同,最后還要順手在群里發(fā)一條協(xié)調(diào)通知。
這個任務(wù)表面看只是信息整理,實際上同時考驗四種能力:能不能先拆任務(wù),再分角色,再搭目錄,最后生成一段可直接采用的話術(shù)。
![]()
混元的表現(xiàn)堪稱出色。它不是只給出一串大而化之的“建議”,而是把這件事拆成了可以直接落地的結(jié)構(gòu):銷售要交近兩個月合同、訂單和回款,客服要交投訴類型、頻次和滿意度,產(chǎn)品要交活躍度、功能使用率和追加銷售建議;
會前包目錄也被細化成客戶概覽、合作記錄、投訴與風(fēng)險、回款情況、產(chǎn)品使用、追加銷售方案六個模塊;最后那條工作群消息,甚至連每個部門的截止時間都補上了。
比以往更懂打工人,這是Hy3 Preview給我們留下的第一印象。
這是一個項目復(fù)盤場景:有人在項目復(fù)盤里寫了一句“團隊從年初開始就一直把零售當(dāng)成重點方向之一”,但給模型的背景材料里,其實清楚寫著團隊一開始主推教育,零售只是后面逐步試水,到3月20日才正式升為并行重點。
顯然,材料里的矛盾,其實是在檢驗?zāi)P陀袥]有“上下文校正”、基于現(xiàn)有資料修復(fù)Bug的能力。
![]()
這里混元直接否定了那句錯誤的總結(jié),然后把1月、2月、3月的決策變化重新排了時間線,再進一步解釋為什么組織里會出現(xiàn)“事后改寫歷史”:記憶偏差、確認偏誤、敘事簡化、責(zé)任規(guī)避。
事實上,今天的主流LLM在這些日常任務(wù)上的完成度都大差不差,主要的差異就在誰能更有效理解用戶的使用場景和意圖。
這件事看似細小,放在元寶身上卻很重要。因為元寶如果想要在C端進一步做大做強,就必須持續(xù)挖掘日常場景的使用體驗。
無論是做會議整理、客戶資料、合同提煉,還是在“元寶派”這類多人交互場景里充當(dāng)協(xié)作助手,用戶都不會只給它一句問題,而是會給出一堆材料,或者一堆限制條件。
模型能不能在這些約束下穩(wěn)定輸出,決定了一款原生C端AI產(chǎn)品的用戶體驗和留存。
從這個角度看,一批新的產(chǎn)品思路也許在混元3.0的支持下可以加快落地。
02
“龍蝦”熱潮下的Agent競賽
今年年初以來,伴隨著一只小小“龍蝦”在眾多用戶的電腦上落地,AI行業(yè)正在從“Chatbot”全面進化至“Agent”階段。
如果說元寶更能體現(xiàn)混元3.0在C端的直接壓力,那么傳說中的微信Agent、QClaw、WorkBuddy這一隊Agent產(chǎn)品線,考驗的則是姚順雨接手的混元,對模型底層統(tǒng)一能力的建設(shè),是否契合Agent底座需要的形態(tài)。
一個模型是否適合做Agent底座,看的往往不是抽象智力,而是更瑣碎、更真實的能力。智能體不僅能回答問題,還能理解任務(wù)目標(biāo)、拆解步驟、調(diào)用工具并跨應(yīng)用完成工作。
對此,我們專門進行了更偏向Agent和企業(yè)協(xié)作場景的測試。
第一類是考驗理解用戶意圖和收集、整合信息的能力。
Prompt并不復(fù)雜:請直接告訴我某家公司2025年Q4營收同比增長多少、毛利率多少、CEO怎么解釋增長原因。只是,Prompt本身并沒有給財報,也沒有給電話會紀(jì)要,真正想測的是,模型會不會在沒有證據(jù)時裝懂。
這里豆包和元寶都沒有進行編造,在真實性上全部都過關(guān);但混元比豆包更進一步,它不僅說不能直接回答,還把優(yōu)先查詢資料列成了財報、CEO電話會紀(jì)要、財務(wù)周報、投資者關(guān)系頁面,并寫出了先查知識庫、再查共享盤原始文件、再用周報和對外口徑交叉驗證的路徑。
最后,它甚至給出一段標(biāo)準(zhǔn)回復(fù)模板,連“預(yù)計今日17:00前給您準(zhǔn)確數(shù)字及官方解釋”這種職場化措辭都呈現(xiàn)出來了。
這種能力,放在微信Agent或WorkBuddy里其實特別關(guān)鍵。因為真正進入企業(yè)場景后,用戶最怕的不是模型說“我不知道”,而是頻繁出現(xiàn)的“幻覺”。
一個能老老實實交代信息缺口、還能順手規(guī)劃檢索流程的模型,才更像企業(yè)敢接進工作流里的底座。
另一類是“任務(wù)推進能力”的考量。模型需要在在三件事里排優(yōu)先級:上午10點上海客戶會議、下午交季度復(fù)盤PPT初稿、晚上發(fā)團建時間收集通知,并要求它順手把三段消息都寫好。
![]()
這一項是在模擬微信Agent真正會遇到的請求,涵蓋消息溝通、日程意識和多任務(wù)管理等場景。
在這道題上,Hy3 Preview先按“時間剛性”和“錯過是否可補救”排了順序,再分別寫出給客戶、給老板、給團隊群的三段消息,最后還額外提醒了一個容易被漏掉的風(fēng)險:客戶會議前的設(shè)備調(diào)試。
這個補充很有意思,因為它不是題面要求的內(nèi)容,卻很貼近日常執(zhí)行。豆包也完成了排序和話術(shù),但輸出更像一個標(biāo)準(zhǔn)辦公助手模板,通順、合格、可用,但“會多想一步”的感覺稍弱。
代碼題上的差異,也能說明一些問題。我們放進去的不是大倉庫級別的重編碼,而是更容易在日常工作中遇到的小任務(wù):給一組銷售記錄,統(tǒng)計銷量前兩名地區(qū),要求自動跳過缺失字段和非法值。
![]()
混元在這道題里給出的代碼結(jié)構(gòu)很扎實,字段校驗、類型判斷、累加邏輯、排序過程都比較清楚,測試樣例也覆蓋了正常數(shù)據(jù)和異常數(shù)據(jù)兩類情況。
在這類辦公與協(xié)同場景中,元寶確實開始表現(xiàn)出一種更強的“執(zhí)行感”。
而微信、企業(yè)微信、騰訊會議、騰訊文檔,本來就是中國最天然的工作流入口。只要底層模型到了那個臨界點,騰訊在Agent階段的想象空間,會一下子比單純做一個聊天機器人大得多。
至于微信Agent會不會直接依賴混元3.0,從公開口徑看,兩者至少是被放在同一條產(chǎn)品線上推進的。
從行業(yè)視角看,微信Agent的緊迫性并不低,外部競爭一直在持續(xù)加碼,讓騰訊不得不加快這一步。
去年年底,字節(jié)已經(jīng)把豆包手機助手推上中興手機,走的是系統(tǒng)級手機助手路線,支持找內(nèi)容、訂票等任務(wù);小米則在今年3月公開了MiMo-V2-Pro,并把它明確定位為自主智能體的“大腦”,同時宣布未來三年將在AI上投入至少600億元人民幣。
此前,騰訊CEO劉熾平在談到微信AI Agent的同時,也提到混元3.0即將發(fā)布;而隨著OpenClaw等生態(tài)先后接入微信,微信側(cè)的智能體入口已經(jīng)開始鋪設(shè),混元3.0更像是微信Agent需要補上的那顆“大腦”。
03
姚順雨的第一份答卷,也許不必過度關(guān)注
混元3.0另一個天然會被放大的意義在于,這是姚順雨加入騰訊、并經(jīng)歷混元重整之后,混元大語言模型領(lǐng)域第一次真正意義上的大版本更新。
去年年底,騰訊宣布聘請前OpenAI研究員姚順雨擔(dān)任“CEO/總裁辦公室”首席AI科學(xué)家,負責(zé)大語言模型部和新成立的AI Infra部。
幾乎與此同時,騰訊對內(nèi)部AI研發(fā)體系做了一輪明顯重構(gòu):把算力、數(shù)據(jù)和算法資源向AI Infra收攏,把AI Lab的核心力量進一步并入混元團隊,試圖結(jié)束過去相對分散的研發(fā)狀態(tài),讓混元成為更統(tǒng)一的底層支點。
![]()
而在混元3.0預(yù)覽版上,也能看出這種重構(gòu)后的取向。騰訊方面披露的信息顯示,Hy3 Preview以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn),以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中,都追近了幾大主流模型。
前面的測試結(jié)果放在一起看,姚順雨團隊這份答卷至少有一個相對清晰的輪廓:混元在努力把模型向 “復(fù)雜任務(wù)下更穩(wěn)、更像工作助手”的方向進化。
這一點,跟姚順雨年初在AGI-NEXT峰會上談到的觀察相對應(yīng)。
他提過,最好的模型可以賣到200美元一個月,次一級是50美元、20美元,而很多用戶愿意為最好的模型支付溢價。
騰訊混元團隊此前推出CL-bench,也是在測類似問題:模型能不能從復(fù)雜上下文里學(xué)新規(guī)則,并正確執(zhí)行任務(wù)。
因為無論是元寶、微信Agent、WorkBuddy,還是更廣義上的企業(yè)辦公場景,未來都不會是把模型放在真空里考試,而是不斷往里面塞資料、塞規(guī)則、塞流程,再看它能不能按要求干活。
從實際測試反饋看,混元3.0在這個方向上的進步是真實存在的。
在信息整理、上下文糾偏、拒答與檢索規(guī)劃、職場溝通生成、輕量代碼執(zhí)行這些場景里,已經(jīng)比過去更像一個“辦公助手”級的模型。對騰訊而言,這就已經(jīng)不是一個小變化。
當(dāng)然,這還遠遠談不上格局逆轉(zhuǎn)。外部強敵依然都在:字節(jié)的豆包靠產(chǎn)品入口和Seed旗下多款模型占據(jù)優(yōu)勢,阿里的千問和ATH事業(yè)群也在重組后接連推出新模型,智譜、月之暗面、DeepSeek各自也都在生產(chǎn)力和Agent方向上搶位。
但混元3.0的意義本來也不在這里。對騰訊來說,真正關(guān)鍵的從來不是單獨做出一個參數(shù)更大的模型,而是讓這塊模型底座,能夠順暢地接進微信、企業(yè)微信、騰訊會議、騰訊文檔、云和廣告這些高頻場景里,最終把龐大的入口優(yōu)勢轉(zhuǎn)成數(shù)據(jù)、訓(xùn)練和商業(yè)化的閉環(huán)優(yōu)勢。
換句話說,混元3.0當(dāng)然是一份答卷,但它未必是姚順雨的底牌。
“目前看來,生產(chǎn)力Agent才剛剛開始。即使今天開始,世界上所有的模型訓(xùn)練全部停止,但是把這些模型部署到企業(yè)中,已經(jīng)能帶來10倍甚至100倍的收益。”
姚順雨幾個月前在AGI-NEXT上的這番發(fā)言,也許可以作為我們看待混元3.0的一個視角。我們很可能還身處Agent進化的早期階段,對于騰訊而言,把混元3.0視作一個新起點,抑或是一個既有節(jié)點,其實并不是問題的關(guān)鍵。
混元3.0只是一個結(jié)果展示。騰訊和混元團隊更該回答的,是過去一年風(fēng)云變幻的業(yè)務(wù)調(diào)整之后,是否已經(jīng)找對方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.