終等到DeepSeek V4：1.6萬億參數(shù)、百萬上下文，牽手華為，價格依然"屠夫級"

2026-04-24 21:06:05　來源: 太空與網(wǎng)絡(luò)

北京舉報

分享至

作者 | 袁寧

DeepSeek-V4，終于來了。

這段時間，行業(yè)節(jié)奏已經(jīng)快到有些失真。新模型一波接一波，參數(shù)、榜單、價格、長上下文、Agent、推理強(qiáng)度，幾乎每隔幾天就要重排一次座次。越是在這種密集更新里，DeepSeek 的沉默就越容易被放大。再疊加融資、擴(kuò)張、下一階段戰(zhàn)略這些外圍討論，市場對它的期待，早就不只是“再發(fā)一個新模型”這么簡單。

所以，V4 這次上線，大家真正想知道的其實(shí)是兩件事：

第一，DeepSeek 還在不在第一梯隊(duì)里。

第二，它這次到底拿出了什么新東西。

4 月 24 日，DeepSeek-V4 預(yù)覽版官宣上線，同步開源。

先說結(jié)論：V4 不是一代靠“能力全面躍升”來定義自己的模型。官方表示，相比前代模型，DeepSeek-V4-Pro 的 Agent 能力顯著增強(qiáng)。在 Agentic Coding 評測中，V4-Pro 已達(dá)到當(dāng)前開源模型最佳水平，并在其他 Agent 相關(guān)評測中同樣表現(xiàn)優(yōu)異。目前 DeepSeek-V4 已成為公司內(nèi)部員工使用的 Agentic Coding 模型，據(jù)評測反饋使用體驗(yàn)優(yōu)于 Sonnet 4.5，交付質(zhì)量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知識測評中，大幅領(lǐng)先其他開源模型，僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

在數(shù)學(xué)、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro 超越當(dāng)前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優(yōu)異成績。

那 V4 在做什么？一句話：它把長上下文的成本結(jié)構(gòu)徹底重寫了一遍。100 萬 token 上下文成為標(biāo)配，但單 token 的算力消耗反而大幅下降。這是一次基礎(chǔ)設(shè)施級別的發(fā)布，為下一階段的 test-time scaling 和長程 Agent 任務(wù)鋪路。

兩個版本、百萬上下文、三檔推理，DeepSeek這次最狠的還是價

這次 V4 一共兩個版本。

V4-Pro 是旗艦版，總參數(shù) 1.6T，激活參數(shù) 49B；V4-Flash 是輕量版，總參數(shù) 284B，激活參數(shù) 13B。兩者都原生支持 1M 上下文，同時支持非思考模式和思考模式。

更進(jìn)一步，每個模型又分成三檔推理強(qiáng)度：Non-think、Think High、Think Max。也就是說，這次 DeepSeek 給出的不只是兩個模型，而是一整套可以按場景分層調(diào)用的能力結(jié)構(gòu)。

從產(chǎn)品上看，這個思路已經(jīng)很明確了：Pro 負(fù)責(zé)沖能力上限，F(xiàn)lash 負(fù)責(zé)鋪性價比；非思考負(fù)責(zé)效率，Max 負(fù)責(zé)榨干推理能力。

官方也直接說了，“從現(xiàn)在開始，一百萬上下文將是 DeepSeek 所有官方服務(wù)的標(biāo)配。”這句話表面上是在強(qiáng)調(diào)上下文長度，實(shí)際上更重要的是它背后的意思：DeepSeek 不是想把 1M 當(dāng)成一個展示參數(shù)，而是想把它做成標(biāo)準(zhǔn)配置。

而標(biāo)準(zhǔn)配置能不能成立，關(guān)鍵從來都不是“寫沒寫支持 1M”，而是成本。

這次 V4 最值得注意的地方，也正是在成本曲線。按照官方披露的數(shù)據(jù)，在 1M 上下文設(shè)置下，V4-Pro 的單 token 推理 FLOPs 只有 V3.2 的 27%，KV Cache 只有 10%；V4-Flash 更激進(jìn)，分別壓到 10% 和 7%。換句話說，雖然上下文從 128K 拉到了 1M，理論上放大接近 8 倍，但單 token 的推理成本并沒有跟著爆炸，反而被打了下來。

這一點(diǎn)其實(shí)比“百萬上下文”本身更關(guān)鍵。因?yàn)檫^去很長一段時間，長上下文一直都更像一種能力展示：窗口越寫越長，但真到實(shí)際調(diào)用時，價格、延遲、顯存壓力都很難看。V4 這次真正想證明的是，長上下文不一定只能做成貴族配置，它可以被改造成可供大規(guī)模調(diào)用的基礎(chǔ)能力。

這一點(diǎn)在價格上體現(xiàn)得非常直接。

V4-Pro 每百萬 token 輸入價格是 1 元，輸出是 12 元；V4-Flash 每百萬 token 輸入 0.2 元，輸出 2 元。這個價格一出來，基本上還是那個熟悉的 DeepSeek 風(fēng)格。

也難怪不少用戶第一反應(yīng)還是那句老話：便宜，而且強(qiáng)。

技術(shù)上動了三刀：

注意力、殘差、后訓(xùn)練

V4 最核心的技術(shù)改動在注意力層。傳統(tǒng) Transformer 的注意力機(jī)制里，每個 token 要和前面所有 token 算一遍相似度。上下文從 10 萬拉到 100 萬，計(jì)算量增長的不是 10 倍，是 100 倍。

V4 的做法是把注意力拆成兩種，交替疊用。一種叫 CSA（壓縮稀疏注意力），先把每 4 個 token 的 KV 緩存合并成一條摘要，再讓每個 query 只在這些摘要里挑出最相關(guān)的 top-k 條去算。既壓縮了"要看的內(nèi)容"，又只挑"值得看的"去算。另一種叫 HCA（重壓縮注意力），壓縮率更激進(jìn)，把每 128 個 token 合并成一條，但對剩下的摘要做稠密注意力，不做稀疏挑選。兩種交替疊起來，再加一個滑動窗口分支處理近距離 token 之間的細(xì)節(jié)依賴。這是一套"粗粒度 + 細(xì)粒度、稀疏 + 稠密"的組合拳。

把這套方案放進(jìn) DeepSeek 過去兩年的技術(shù)脈絡(luò)里，變化就很清晰。V2、V3 走的是參數(shù)稀疏化，總參數(shù)很大，但每 token 只激活一小部分專家。V4 在此之外又開了一條上下文稀疏化的路，KV 壓縮、top-k 選擇、分層壓縮率。這是 DeepSeek 第一次把"稀疏化"的刀動到 Transformer 的核心結(jié)構(gòu)里。

除了注意力層，V4 還改了兩處之前沒動過的地方。一是把傳統(tǒng)殘差連接升級為 mHC（流形約束超連接），通過數(shù)學(xué)約束讓深層網(wǎng)絡(luò)的前向和反向傳播更穩(wěn)定；二是用 Muon 優(yōu)化器替代大部分模塊原本用的 AdamW，收斂更快，訓(xùn)練更穩(wěn)。同時動注意力、殘差、優(yōu)化器三處核心結(jié)構(gòu)，在 DeepSeek 的歷史上是第一次。

比架構(gòu)改動更值得注意的是后訓(xùn)練方法的切換。V3.2 用的是"混合 RL"，一次性用強(qiáng)化學(xué)習(xí)優(yōu)化多個目標(biāo)。V4 換成了"分化再統(tǒng)一"的兩步走。第一步，針對數(shù)學(xué)、代碼、Agent、指令跟隨等不同領(lǐng)域，每個領(lǐng)域單獨(dú)訓(xùn)練一個專家模型——先用該領(lǐng)域高質(zhì)量數(shù)據(jù)做監(jiān)督微調(diào)，再用 GRPO 算法做強(qiáng)化學(xué)習(xí)，在各自的細(xì)分賽道上跑到最優(yōu)。第二步，用 On-Policy Distillation（OPD，在策略蒸餾）把十多個領(lǐng)域?qū)＜?合成"回一個統(tǒng)一的學(xué)生模型。學(xué)生自己生成回答，然后對每個回答，去匹配"最懂這個問題"的專家的輸出分布，通過 logit 級對齊把能力吸收進(jìn)來。通俗地講，就是把一堆尖子生的本事蒸餾進(jìn)同一個人腦袋里。

這套流程的工程難度極高：同時加載十多個萬億參數(shù)級的教師模型做在線推理不現(xiàn)實(shí)。DeepSeek 的做法是把所有教師權(quán)重統(tǒng)一卸載到分布式存儲，只緩存每個教師最后一層的 hidden state，訓(xùn)練時按教師索引排序樣本，保證任意時刻 GPU 顯存里只駐留一個 teacher head。V4 的能力不再靠一個模型從頭學(xué)到底，而是先讓不同專家在各自賽道跑到頂，再把它們收編進(jìn)同一套權(quán)重。這種思路繞開了傳統(tǒng)混合 RL 容易導(dǎo)致的能力互相干擾問題。

在 Agent 方向，V4 做了幾處專項(xiàng)優(yōu)化：后訓(xùn)練階段把 Agent 作為與數(shù)學(xué)、代碼并列的獨(dú)立專家方向單獨(dú)訓(xùn)練；工具調(diào)用格式從 JSON 換成帶特殊 token 的 XML 結(jié)構(gòu)，降低轉(zhuǎn)義錯誤；跨輪次推理痕跡在工具調(diào)用場景下完整保留，不再像 V3.2 那樣每輪清空。DeepSeek 還自建了一套名為 DSec 的沙箱平臺，單集群可并發(fā)管理數(shù)十萬個沙箱實(shí)例，專門支撐 Agent 強(qiáng)化學(xué)習(xí)訓(xùn)練和評測。V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產(chǎn)品進(jìn)行了適配優(yōu)化，在代碼任務(wù)和文檔生成任務(wù)上均有提升。

融資、算力、昇騰，

V4背后還有DeepSeek的下一道現(xiàn)實(shí)題

V4 這次發(fā)布，另一個繞不開的話題，是算力。

DeepSeek 在說明里提到，受限于高端算力，當(dāng)前 Pro 的服務(wù)吞吐仍然有限，預(yù)計(jì)下半年昇騰 950 超節(jié)點(diǎn)批量上市之后，Pro 的價格還會進(jìn)一步大幅下調(diào)。它基本等于確認(rèn)了兩件事。

第一，DeepSeek 這次確實(shí)已經(jīng)把國產(chǎn)算力協(xié)同放進(jìn)正式路線里了。

第二，V4 當(dāng)前的能力釋放，還沒有完全到位，背后依然受制于算力供給。

昇騰表示，其一直同步支持DeepSeek系列模型，本次通過雙方芯模技術(shù)緊密協(xié)同，實(shí)現(xiàn)昇騰超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型，在8K輸入場景，昇騰950超節(jié)點(diǎn)可實(shí)現(xiàn)TPOT約20ms時單卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型，8K長序列輸入場景下可實(shí)現(xiàn)TPOT約10ms時單卡Decode 吞吐1600TPS。

今天下午，16點(diǎn)，華為昇騰還將在B站直播DeepSeek V4在其平臺的首發(fā)。

此前有消息稱，DeepSeek 正以超過 100 億美元估值尋求外部融資，計(jì)劃募集不少于 3 億美元資金。對一家過去長期強(qiáng)調(diào)獨(dú)立性、相對克制資本敘事的公司來說，這種變化本身就很值得玩味。因?yàn)楫?dāng)模型行業(yè)進(jìn)入更高密度的競爭之后，技術(shù)路線再強(qiáng)，也很難脫離算力、人才和現(xiàn)金流去單獨(dú)討論。

從這個角度看，V4 其實(shí)也暴露出 DeepSeek 當(dāng)前所處的位置：它在模型能力上仍然保持強(qiáng)競爭力，尤其在開源和高性價比這條線上依然非常突出；但與此同時，它也已經(jīng)進(jìn)入一個必須更現(xiàn)實(shí)地處理算力和資源配置的問題階段。

這點(diǎn)在多模態(tài)上體現(xiàn)得尤其明顯。

這次 V4 沒有推出多模態(tài)版本，而多模態(tài)已經(jīng)越來越成為頭部模型廠商的“標(biāo)配動作”。如果說 V4 展現(xiàn)的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上繼續(xù)往前推，那么它暫時沒有補(bǔ)上的那一塊，也同樣說明公司還得在資源約束下做取舍。

所以，怎么理解這次 V4？如果說過去外界對 DeepSeek 的期待，是它還能不能再做出一個“便宜又強(qiáng)”的模型；那么 V4 給出的回答是：它不僅還在這么做，而且正在試圖把“便宜又強(qiáng)”這件事，進(jìn)一步做成一種結(jié)構(gòu)性的能力。

至于再往后，DeepSeek 能不能補(bǔ)上多模態(tài)、能不能借融資解決算力瓶頸、能不能把 V4 這套 preview 架構(gòu)真正打磨成熟，那就是下一階段的問題了。

>End

本文轉(zhuǎn)載自“網(wǎng)易科技”，原標(biāo)題《終等到DeepSeek V4：1.6萬億參數(shù)、百萬上下文，牽手華為，價格依然"屠夫級"》。

為分享前沿資訊及有價值的觀點(diǎn)，太空與網(wǎng)絡(luò)微信公眾號轉(zhuǎn)載此文，并經(jīng)過編輯。

未按照規(guī)范轉(zhuǎn)載及引用者，我們保留追究相應(yīng)責(zé)任的權(quán)利

部分圖片難以找到原始出處，故文中未加以標(biāo)注，如若侵犯了您的權(quán)益，請第一時間聯(lián)系我們。

HISTORY/往期推薦

充滿激情的新時代，

充滿挑戰(zhàn)的新疆域，

與踔厲奮發(fā)的引領(lǐng)者，

卓爾不群的企業(yè)家，

一起開拓，

一起體驗(yàn)，

一起感悟，

共同打造更真品質(zhì)，

共同實(shí)現(xiàn)更高價值，

共同見證商業(yè)航天更大的跨越！

——《太空與網(wǎng)絡(luò)》，觀察，記錄，傳播，引領(lǐng)。

·《衛(wèi)星與網(wǎng)絡(luò)》創(chuàng)始人：劉雨菲

·《衛(wèi)星與網(wǎng)絡(luò)》副社長：王俊峰

·微信公眾號（ID：satnetdy）團(tuán)隊(duì)

編輯：艷玲、哈玫，周泳、邱莉、黃榕、娜娜

主筆記者：李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部：楊艷、若?、李真子

視覺總監(jiān)：董濘

專業(yè)攝影：馮小京、宋偉

設(shè)計(jì)部：顧錳、潘希峎、楊小明

行政部：姜河、林紫

業(yè)務(wù)部：王錦熙、瑾怡

原創(chuàng)文章轉(zhuǎn)載授權(quán)、轉(zhuǎn)載文章侵權(quán)、投稿等事宜，請加微信：15910858067

商務(wù)合作；展覽展廳設(shè)計(jì)、企業(yè)VI/CI及室內(nèi)設(shè)計(jì)、企業(yè)文化建設(shè)及品牌推廣；企業(yè)口碑傳播及整體營銷傳播等，請加微信：13811260603

雜志訂閱，請加微信：wangxiaoyu9960

·衛(wèi)星與網(wǎng)絡(luò)各分部：

成都分部負(fù)責(zé)人：沈淮

長沙分部負(fù)責(zé)人：賓鴻浦

西安分部負(fù)責(zé)人：郭朝暉

青島分部負(fù)責(zé)人：江偉

·衛(wèi)星與網(wǎng)絡(luò)總部負(fù)責(zé)人：農(nóng)燕

·會議活動部負(fù)責(zé)人：喬顥益、許克新、董今福

· 投融資及戰(zhàn)略層面合作：劉雨菲

·本平臺簽約設(shè)計(jì)公司：一畫開天（北京）文化創(chuàng)意設(shè)計(jì)有限公司

· 航天加（深圳）股權(quán)投資基金管理負(fù)責(zé)人：楊艷

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.