網易首頁 > 網易號 > 正文申請入駐

3個月，姚順雨爆改混元｜甲子光年

2026-04-23 19:52:20　來源: 甲子光年

北京舉報

分享至

混元新模型能讓騰訊后發制勝嗎？

作者｜劉楊楠

編輯｜栗子

4月23日，騰訊混元新模型Hy3 Preview如期而至。這是姚順雨從OpenAI加入騰訊后交出的第一份答卷。

此前，業內已經流傳起Hy3的傳聞，認為其將更貼合姚順雨在OpenAI時期的研究脈絡，重點增強Agent能力。

今天答案揭曉，Hy3 Preview確實在推理和Agent能力上做了重點強化。它是一個快慢思考融合的MoE語言模型，騰訊官方口徑更強調其“特別適用于Coding和智能體類場景”，在“實用性和高性價比”上下了功夫。

但在參數規模上，姚順雨幾乎“反其道而行”。Hy3.0 Preview反而比混元2.0更小，總參數295B，激活參數21B，最大支持256K上下文。官方說法是“整體性能達到同尺寸模型最佳水平”。

目前，Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發上線。微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。

另外，Hy3 preview支持接入流行的開源智能體產品，如OpenClaw、OpenCode、KiloCode等，并已上架騰訊云大模型服務平臺 TokenHub。

騰訊首席AI科學家姚順雨表示：“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布，獲得來自開源社區和用戶的真實反饋，幫助我們提升 Hy3 正式版的實用性。與此同時，我們也在繼續擴大預訓練和強化學習的規模，提升模型的智能上限，并通過與騰訊眾多產品的深度Co-Design，持續提升模型在真實場景中的綜合表現，并開始探索特色模型能力。”

經過「甲子光年」實際測試，整體來看，Hy3 Preview身上幾乎看不到姚順雨加入前的影子。更激進一些說，姚順雨在重造一個混元。

1.“解決真實世界復雜工程問題的開端”

騰訊的龍蝦WorkBuddy前段時間比較火，「甲子光年」在WorkBuddy中實測了Hy3 Preview在“事實審計、文檔可視化、AI算力研究”三個場景的真實表現。

首先，我們讓Hy3 Preview進行了一次事實審計，輸入prompt如下：

針對‘傳聞 DeepSeek 宣布 DeepSeek v4 將在下周正式發布并開源，全面適配國產 GPU，編程能力對標國外一線前沿閉源模型’這一網絡傳聞： 1.請啟動全網搜索，從國內外獲取至少 5 個來自不同背景（如：官方博客、權威科技媒體、知名財經新聞、X/Twitter 核心爆料人）的核驗信源； 2.對比這些信源對該事件的描述，特別標注出在“發布時間”、“核心能力說明”以及“官方回復狀態”上的任何細微不一致點； 3.基于你搜集到的所有證據，給出該傳聞的“信度評分”（0-100）并詳細解釋理由。 4.請整理成一份邏輯嚴密的 Markdown 報告發給我。

Hy3 Preview給到了以下總結，并且也同步生成了一份詳細的報告。

圖片來源：「甲子光年」截圖

接下來，我們測試了文檔可視化功能：

騰訊23年.pdf 騰訊24年.pdf 騰訊25年.pdf 請嚴格基于我提供的騰訊2023年、2024年和2025年年報文件進行分析。報告中所有數據、數字和文字描述必須且只能來源于所提供的文件原文，禁止引用外部信息或自行推測因果。分析某一年度時，所引用的具體產品名、業務事件等必須來源于該年度的年報，不得跨年引用。如需拆分子項數據，必須確保子項合計等于母項總額，單位必須保持一致。如文件中缺少某項數據，請標注"年報未披露"而非編造。報告正文中不要引用或粘貼年報英文原句，用中文自然表述即可。

分析以下兩個維度，最后以單個HTML文件呈現。報告整體風格需具備官方年度匯報感（配色克制、排版緊湊、圖表專業），頁面不要有多余留白：一、核心財務數據（三年對比）從年報中提取你認為最關鍵的5個財務指標，用表格展示2023-2025年的數值，并配合圖表可視化趨勢。對關鍵變化給出簡要分析。二、業務板塊收入結構（三年對比）按年報披露的業務分部，展示各板塊2023-2025年的收入金額與占總收入比例，配合圖表呈現收入結構變化。分析核心收入驅動板塊、增速最快板塊及三年間結構變化。分析完成后，保存為HTML文件，命名為《騰訊三年財報分析-showacse》

幾分鐘后，Hy3 Preview反饋了一版看上去還算美觀的網頁版報告：

視頻來源：「甲子光年」錄屏

進一步，我們對這個網頁版報告做了視覺優化，添加了一些動畫效果。這一次的輸出結果確實比較酷炫，只是配色上讓用戶反而看不清其中的數據了。

視頻來源：「甲子光年」錄屏

整體上看，WorkBuddy接入Hy3 Preview后，對于復雜任務完成效果確實有很大提升。

我們再看下Hy3 Preview在“AI算力研究”場景下的輸出結果表現，大致需求是：“以'CPU 瓶頸轉移'為引子，調研 NVIDIA Vera Rubin 定位及國產 CPU 出貨表現。發現機會與陷阱，給出投資建議。”

下面是Hy3 Preview的輸出結果（部分）：

AI算力方向CPU子品類深度調研報告 ——全球供需格局、國產替代與未來展望報告日期：2026年4月23日分析師：資深行業分析師報告類型：深度行業研究

執行摘要（Executive Summary）核心結論 1.全球CPU供應出現嚴重短缺：2026年Q1，Intel和AMD企業級CPU交付周期延長至6個月（Intel）和8-10周（AMD），價格累計上漲10-20%，AI基礎設施需求爆發是主要驅動力。

2.x86架構面臨多重挑戰：NVIDIA Vera Rubin CPU的推出、ARM架構在云數據中心的快速滲透、國產CPU的崛起，共同沖擊傳統x86服務器市場。

3.國產替代加速：華為鯤鵬在中國服務器市場份額已達20%，中國移動2026年集采ARM服務器占比65%，創歷史紀錄。

4.CSP自研成主流趨勢：AWS Graviton4、Google Axion、阿里倚天710等自研ARM CPU在TCO上較x86節省18-20%，性能媲美甚至超越x86。

5.未來1-2年預測：2026-2027年CPU市場將呈現"x86守成、ARM進攻、國產突圍"的三足鼎立格局，AI推理需求將成為最大增長引擎。

噢對了，對于難倒一眾模型的“距離洗車店50米，是開車去還是走路去”的問題，Hy3 Preview也在1秒鐘之內給到了正確而風趣的答案。

圖片來源：「甲子光年」截圖

要知道，這個問題DeepSeek深度思考了9秒，告訴我應該走路去。

圖片來源：「甲子光年」截圖

從實測的結果看，Hy3 preview的表現確實不錯，而這一點在權威評測榜單中的分數也有諸多體現。

首先，上下文學習和指令遵循能力明顯提升。此前，姚順雨已經發布論文，提出CL-bench和CL-bench-Life兩套評測標準來創新性地評估模型的上下文學習能力。可以看到，Hy3 preview表現明顯提升。

圖片來源：騰訊

在復雜推理能力方面，Hy3 preview在FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務，以及最新的清華大學求真書院數學博資考(26春) 和全國中學生生物學聯賽(CHSBO 2025) 中均表現良好，這也體現了其可泛化的推理能力。

圖片來源：騰訊

在代碼與智能體提升的提升則最為明顯，且在此基礎上表現出了較高的性價比。

通過預訓練及強化學習框架的重建和強化學習任務規模的提升，騰訊混元以較快的速度在SWE-Bench Verified、Terminal-Bench 2.0等主流代碼智能體基準以及BrowseComp、WideSearch等主流搜索智能體基準中均較有競爭力。

圖片來源：騰訊

同時，Hy3 preview在ClawEval和WildClawBench等評測中表現突出，表明我們的智能體能力正在穩步走向全面與實用。

圖片來源：騰訊

除了公開榜單，騰訊混元還進一步構建了多個內部的評測集，對模型在真實開發場景中的表現進行評估。結果表明，無論是在后端工程任務集 Hy-Backend，貼近真實用戶開發交互的 Hy-Vibe Bench，還是高難度軟件工程開發任務集 Hy-SWE Max 上，Hy3 preview 均體現出了強競爭力。

圖片來源：騰訊

比較各個開源模型的大小與智能體綜合表現，Hy3 preview展現出高性價比。

圖片來源：騰訊

可以看到，多個測評結果顯示，Hy3 preview模型能力都有了全面提升。

2.姚順雨“重造”混元

從實際的體感看，Hy3 Preview和之前的混元系列有很強的斷裂感。

混元系列此前的發布思路，幾乎就像這個名字一樣混沌不清。混元體系看似在圖像（混元圖像3.0）、視頻（HunyuanVideo）、3D生成方面形成了完整矩陣，但基本都在跟隨行業風向，做一些不會出錯的動作。就以上一代的混元2.0為例，騰訊官方仍在強調其在數學競賽、科學推理、代碼生成等Benchmark上的全面表現。

但這一次，Hy3 Preview的氣質明顯變化。

首先，在技術架構方面，原來的混元2.0采用Think和Instruct兩個獨立版本的策略。Think版針對高難度復雜推理和代碼生成等進行深度優化；Instruct版則側重于通用場景下的高效響應與指令遵循。這種設計好處是能針對不同任務“專項特調”，但代價也不容忽視：用戶需要自行判斷任務復雜度并手動切換模型，體驗上是割裂的。

而Hy3 Preview實現了單一模型內的快慢思考融合。模型根據任務復雜度自動調節思考深度，用戶無需手動切換。這個設計直接呼應了姚順雨在OpenAI開發Operator和Deep Research時期的經驗。

Operator主打對計算機系統進行通用操作，Deep Research則瞄準科研、法律、金融等知識密集型領域，二者的共同經驗是：真實世界的任務往往是混合型的，既需要快速響應的簡單子任務，也需要深度推理的復雜環節。將兩者割裂，本質上會降低Agent的端到端效率。

在效率優化方面，Hy3 Preview總參數從混元2.0的406B降至295B，激活參數從32B降至21B，縮減幅度約27%，直接將騰訊拉出了“卷參數”的泥潭。

2026年1月10日，姚順雨官宣加入騰訊后首次公開演講時明確指出：“單純的模型參數競賽已不是C端產品的全部”，AI下半場的關鍵不在于誰擁有最多參數，而在于誰擁有最多“Context”（上下文）。

此外，Hy3.0 Preview的上下文利用效率也有所提升。姚順雨加入騰訊后的首篇論文關注的正是“從上下文學習”的困難。

研究團隊構建的CL-bench測試顯示，即便把解題所需的全部信息都喂給模型，全球最強的模型任務解決率也僅有23.7%。這篇論文得出的結論是：當前前沿模型在上下文利用上依然存在顯著的能力短板，而上下文學習能力恰恰是影響模型在真實世界任務完成效果的核心分水嶺。

在成本方面，得益于模型和推理框架上的深度協同，以及在推理框架、算子性能、量化算法等全方面優化，整體推理效率提升40%，Hy3 preview的成本相比上一代模型大幅下降。

在騰訊云大模型服務平臺 TokenHub 上，Hy3 preview 輸入價格最低1.2元/百萬tokens，輸入命中緩存價格0.4元/百萬tokens，輸出價格最低4元/百萬tokens。同時，騰訊云聯合混元推出定制的 Hy3 preview Token Plan 套餐，個人版定價最低28元/月，為Agent開發和打造“龍蝦”應用的提供更具性價比選擇。

圖片來源：騰訊

在目標場景上，Hy3 Preview的優勢場景被明確收斂到兩個方向：Coding和智能體應用。

這個方向和姚順雨此前的研究路徑一脈相承。他在博士期間提出了思維樹（Tree of Thoughts）框架改進決策模型，隨后構建了CoALA模塊化認知架構，在OpenAI期間又主導提出了ReAct方法——首次將“推理-行動”結合的智能體范式系統化，目前已成為全球構建語言智能體的主流方法。

從ReAct到CoALA再到Tree of Thoughts，這條學術脈絡的核心問題意識始終如一，就是通過增強推理能力，讓模型有更好的泛化效果，同時打造一款能在真實場景發揮實際作用的Agent。

姚順雨曾對Agent的發展頗有信心，他認為：“智能體在To B方向的發展呈一條不斷上升的曲線，且看起來沒有變慢的趨勢。只要預訓練不斷地變大，后訓練不斷地把這些真實世界的任務給做好，它就會帶來越來越大的價值。”

姚順雨的邏輯很清晰：先把底層模型的Agent能力做實，應用層的價值釋放才有根基。

3.騰訊還能延續“后發制勝”的傳統嗎？

在中國互聯網江湖，騰訊有一個著名的“后發制勝”策略。他們不喜在風口最熱時入場，總是等市場教育完成、模式驗證清晰后再大舉投入，借助資源和服務能力后來居上。

但在AI時代，騰訊還能延續這一傳統嗎？

要回答這個問題，首先要看當前同樣強調“實用性和高性價比”的主要玩家：DeepSeek憑借極致的性價比建立了強品牌認知；Qwen堅持開源路線，提供豐富的模型尺寸、成為開源社區寵兒；字節豆包則背靠抖音流量快速增長。

在這個競爭格局中，騰訊的差異化路徑是什么？

騰訊最大的差異化優勢，恐怕就在于擁有微信（14億用戶）這個超級入口。姚順雨在內部明確提出：“模型迭代需要真實世界的約束和評估。”而微信恰好提供了這個“真實世界”——海量用戶、復雜場景、即時反饋。只是，騰訊此前似乎一直沒考慮好怎么用將微信和AI融合。

在被動跟隨的時間里，騰訊已經在一些維度落后對手一個身位。

首先是開源生態建設滯后。 DeepSeek通過完全開源建立了強大的開發者生態；Qwen通過Apache 2.0協議和豐富的模型尺寸選擇成為開源社區寵兒。相比之下，騰訊混元的開源策略較為保守，社區參與度不足，尚未形成明顯的網絡效應。

其次，并未形成明確的技術特色，很難占領牢固的用戶心智。在AI助手領域，DeepSeek憑借“性價比之王”建立了強品牌認知，Kimi憑借長文本特色出圈，豆包背靠抖音流量快速增長。騰訊元寶雖然接入混元，但用戶心智尚未穩固，“混元”品牌在開發者中的認知度弱于DeepSeek和Qwen。

技術透明度和學術影響力不足。 DeepSeek和Qwen團隊持續發布高質量技術報告，在頂會上有活躍發聲。騰訊混元的技術發布相對封閉，學術影響力有限。姚順雨雖然個人學術聲譽卓著，但多大程度上能轉化為騰訊整個技術團隊的凝聚力和工作效率，仍然需要時間驗證。

總體上看，騰訊能否在AI時代延續“后發制勝”的傳統，取決于它能否通過在模型能力的追趕，建立起真正的競爭壁壘。Hy3 Preview的發布，是騰訊AI戰略的一次重要轉折。它標志著騰訊不再盲目追隨行業的參數競賽，而是開始主動探索差異化路徑。

只是，這一切技術或戰略轉變，幾乎都以姚順雨為支點撬動的。姚順雨帶來了全新的理念，但這些技術理念能否和騰訊原有業務體系結合，完成商業轉化，仍需要時間驗證，也考驗著騰訊的執行效率。

一個千億互聯網巨頭的AI重擔，再一次壓在了一位年輕的、有明確技術理想的、充滿鋒芒的掌舵者肩上。這個故事似曾相識，但它會在騰訊長出不同的結局嗎？

（封面圖來源：AI生成）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.