網易首頁 > 網易號 > 正文申請入駐

DeepSeek不需要永遠強，它只需證明這條路走得通

2026-04-28 08:06:06　來源: 虎嗅APP

北京舉報

分享至

本文來自微信公眾號：最話 FunTalk，作者：林書，編輯：劉宇翔，題圖來自：視覺中國

才發布沒兩天，DeepSeek就大降價。

4月25日晚，DeepSeek宣布對V4-Pro模型API開啟限時2.5折價格優惠。26日晚，DeepSeek又宣布V4全系列API服務的輸入緩存命中價格降至原有價格的1/10。其中，Pro模型在今年5月5日前疊加2.5折限時優惠。最新調價后，DeepSeek-V4-Flash每百萬tokens輸入緩存命中價格為0.02元，DeepSeek-V4-Pro為0.025元。

這一價格不但比國外大模型，就是比國內其他大模型都有很大價格優勢。在DeepSeek首次官宣降價的第二天，DeepSeek-V4-Flash的調用量為814億Token，較前日環比增長62.2%；DeepSeek-V4-Pro的調用量為96億Token。

雖然，完成整個任務還涉及到任務類型、模型效率、推理長度、模型輸出Token數等因素，最終賬單不僅取決于輸入價格，但大降價后，開發者們仍有望用V4跑通商業模式。

難怪有人說，“DeepSeek歸來，梁文鋒殺瘋了。”

在V4發布前的一年多里，這家曾讓硅谷側目的公司，在絕大多數時間里是自我隱匿的，外界只能通過它發布的論文來推測其進度。期間，DeepSeek團隊成員的不斷流失，至少5名核心研發成員確認離職：第一代大模型核心作者王炳宣去了騰訊，V3核心貢獻者羅福莉被雷軍以千萬年薪挖走，R1核心作者郭達雅轉投字節跳動，多模態核心研究員阮翀加盟了自動駕駛公司元戎啟行。

同時，從2025年1月R1爆紅到2026年4月V4發布，DeepSeek整整15個月沒有發布大模型新版本。同期，OpenAI連推GPT-4.5、GPT-5和多個推理變體，Anthropic迭代了三代Claude，字節豆包月活沖至3.31億，智譜和MiniMax也陸續發布了GLM-5和MniMax-2.7等新一代模型。

這“空白”的15個月，相當于DeepSeek在全球大模型競賽中隱匿了一個代際。而今，DeepSeek V4從地平線的遠方歸來，最終掀開了面紗。

從性能上看，在世界知識、推理以及Agent能力方面，DeepSeek-V4均實現國內與開源領域的領先，甚至接近了Claude-0pus-4.6等頂尖大模型。

在Agentic Coding 評測中，V4-Pro 已達到當前開源模型最佳水平，并在其他 Agent 相關評測中同樣表現優異。

在架構層面，V4完成了三重關鍵突破：一是首創CSA+HCA混合注意力機制，通過雙重壓縮將長上下文計算量降低73%、顯存占用減少90%，讓百萬上下文不再是昂貴的附加功能，而是默認基礎設施；二是引入mHC流形約束超連接，以不到7%的微小開銷解決了超深網絡的信號衰減難題；三是全面切換至Muon優化器，在訓練效率和收斂穩定性上實現了代際躍升。

這樣的突破，讓DeepSeek終究不負眾望，但此次V4最讓人期待的重要突破是對國產算力的適配，將底層代碼全面遷移至華為的CANN生態，讓V4的推理能運行在昇騰950PR芯片。

這需要經歷一次艱難的適配過程，可以看作是國產AI的“探月工程”，需要從DeepSeek到華為再到半導體設備廠商等整個鏈條的配合。

這不是一個輕松的技術決策，這是一場賭上公司乃至整個國產大模型業界未來命運的架構豪賭。

而理解這場豪賭，需要先看清一個正在吞噬整個AI行業的結構性困境。

必然與偶然

2026年的AI行業，正在經歷一場教科書級別的杰文斯悖論。

1865年，英國經濟學家威廉·杰文斯觀察到一個反直覺現象：蒸汽機的效率越高，英國的煤炭消耗總量反而越大。效率提升不會減少資源消耗，反而會因為使用門檻降低而刺激更大的需求。160年后，同樣的劇情正在AI推理算力上重演。

根據清華大學最新發布的《Token經濟學全景報告》，過去三年，模型推理成本下降了280倍，但企業的AI總支出反而增長了2.4倍。

同樣地，36氪對企業支出的調查統計也顯示：AI推理成本在18個月內下跌超過80%，但中國三大云廠商卻在同一周宣布漲價。越便宜，燒得越兇。推理成本變得愈發昂貴，這是整個行業的結構性宿命。

最先被這個宿命擊中的，是硅谷的標桿企業Anthropic。

2026年，Anthropic僅推理成本一項預計就將達到141億美元，比2025年增長68%。公司2025年全年現金消耗約85億美元，2026年預計全年虧損140億。CEO Dario Amodei在播客中說了一句讓整個行業倒吸冷氣的話：“如果我的收入無法達到1萬億美元……一旦我購買了那么多的算力，地球上沒有任何力量能阻止我破產。”

這是行業的“大必然”——使用成本邊際降低，需求快速上升，推理總算力需求會快速反噬AI企業的利潤，沒有人能幸免。

而在這個大必然之下，出現了一個“小偶然”。

3月初，用戶發現Claude Opus 4.6的性能出現了明顯下降。編程能力斷崖式滑坡，推理深度崩塌67%，第三方測試排名從前2跌至第7。但Token消耗反而增加了——降智的同時還在變相漲價。

Anthropic官方的解釋是“自適應思考模式優化”，但業界心知肚明：這是算力告急的征兆。

此前AnthropicCEO Dario Amodei在自己的公開播客采訪表示，到年底，公司需要超過5GW的算力才能滿足推理和訓練需求，但因為此前采購過于保守，公司已經面臨“不得不接受更高價格”的局面。

這場算力危機，并不只是Anthropic一家的噩夢。

同期的OpenAI同樣焦頭爛額。GPU租賃價格在60天內暴漲48%，英偉達Blackwell芯片供應全面告急；2026年美國原計劃上線的AI數據中心，有將近一半因為電網瓶頸和建設延期被推遲或取消，形成了高達7GW的算力缺口。

但需要指出的是，這樣的算力“短缺”其實是一種“貴族的饑餓”——硅谷目前仍然掌握著全球最大的算力池，在絕對算力上碾壓中國，只是這個池子，現在暫時填不滿它們AGI野心的胃口。

但盡管如此，V4仍然獲得了一個難得的突圍“窗口期”：那就是在硅谷巨頭算力高攀不下時，從成本結構上，對其實施“突襲”。

國產算力的“突襲”

可能有人會問：這樣的“突襲”，究竟意味著什么？是指V4趁Anthropic算力短缺、模型降智之時，以較低成本殺入編程領域，實現對開發者群體的搶占嗎？

很遺憾，這樣的想象在現實中并不成立。

說實話，V4發布后，筆者第一時間與技術社區的開發者進行了討論，但相當一部分開發者表示，即使V4在價格上，與Opus相比有較大優勢，他們也不會將其當成實際工作中的首選。

為什么？因為在一線開發者和程序員看來，編程工具，往往只有最優，沒有次優。甚至可以直接說，在AI coding領域，第一名會贏家通吃。

根據某一線開發者反饋，實際用的時候，國產模型便宜的那點錢，在多輪出錯的場景下，其實貴的要死，開發者使用Opus或codex交互，能實現一遍過，成本可能是1美元，而某些國內模型，可能需要5輪才過，成本是2美元。

如果V4在編程和復雜推理上無法匹敵Opus的巔峰狀態，多數人不會輕易切換。這是現實，不必回避。

因此，真正能讓V4實現“突襲”的，可能是另一個戰場。

此次V4發布，除了百萬上下文、全棧國產化算力適配（如華為昇騰、寒武紀等）、以及混合注意力架構（CSA + HCA）與流形學習優化等底層技術創新之外，更重要的升級，就是DeepSeek在Agent方向上的突破。

其在Agentic Coding評測中成為開源最佳，內部使用體驗已優于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，并針對Claude Code、OpenClaw、CodeBuddy等主流Agent框架做了專項優化，明確將自身定位為Agent基礎設施。

而Agent能力，之所以當下變得如此重要，是因為目前的AI競爭，已經進入到了一個新階段。

2026年第一季度，一個數字震動了整個AI行業：中國大模型Token日均調用量首次超越美國。國家數據局的曲線近乎垂直：從2024年初的約1000億，到2025年中突破30萬億，到2026年2月達到180萬億。兩年漲了1800倍。

而驅動這最后一段最陡峭增長的，恰恰是OpenClaw生態的高頻調用需求。

然而，就在這關鍵的檔口，Anthropic卻主動將大量中低端用戶“推向”了中國。

當OpenClaw在全球擴散后，Anthropic很快發現一個問題：一個每月付49美元Claude Max訂閱費的用戶，如果用OpenClaw跑一個7×24小時的自主Agent實例，消耗的算力相當于幾百個普通對話用戶一個月的總量。

訂閱制定價根本無法在Agent時代維持盈利。于是Anthropic宣布：通過個人訂閱賬號的OAuth令牌接入第三方工具，屬于違規行為，發現即封號，無緩沖期。

之后，中國模型的調用量開始在Agent方向持續瘋漲。

根據OpenRouter平臺2026年4月第一周的最新統計數據顯示，中國AI大模型周調用量高達12.96萬億Token，連續五周超越美國。

這就是Agent時代競爭維度的切換：在對話式AI時代，模型的質量上限決定一切；在Agent時代，成本、穩定性、對高頻調用的支持程度，首次跑到了質量前面。

這個維度的切換，恰好是中國AI的優勢區間。

所以這場“突襲”的實質是：DeepSeek V4這類中國AI，以不俗的性能+低廉的國產算力，在Agent的中間層場景里，用成本和穩定性切走了一塊原本屬于他們的蛋糕。

這樣的不對稱優勢，就是規則轉換期的機會窗口。

杯子壁的高度

如果按照某種模型迭代的推演邏輯，在未來，隨著國產模型不斷地迭代、進步，在Agent這個賽道上，國產大模型的能力，最終會達到大多數常規任務的上限，畢竟，常規任務就像一只容量有限的“杯子”，往里倒再多的智能，最終的結果也只能是“溢出”。

到了那時，在Agent場景下，性能與Opus已無太大區別的國產AI，將通過國產算力的低成本，取得進一步優勢；

昇騰950PR定價7萬元，英偉達同級別H200在中國市場報價高達25萬元，這相當于是便宜了三分之二的價格。

然而，現實終歸是復雜的、有灰度的，真實情況也許遠比這更詭譎。

在Anthropic自己發布的《2026 Agentic Coding Trends Report》中，其將現在的Agent任務分成了三層：

底層（高頻、低風險）：代碼補全、單元測試生成、文檔注釋、格式規范化、簡單Bug修復。這類任務占企業Agent調用量的約65%；

中層（中頻、中風險）：跨文件重構、API集成、數據庫查詢優化、報告生成、合同條款提取。占約28%；

頂層（低頻、高風險）：生產級系統架構決策、安全漏洞審計、復雜財務建模、多步驟法律合規分析。占約7%；

底層那65%，“杯子溢出”論完全成立。代碼補全到了正確就是正確，你用Opus 4.7還是用DeepSeek V4，最終的單元測試通不通過是客觀事實，沒有“更通過”這個說法。

但頂層那7%，才是真正拉開差距的地方。

SWE-bench Pro是目前最接近真實生產環境的代碼基準——它用的是真實企業代碼庫里的真實工單，而非精心設計的題目。

而在這個區間，Anthropic最新的Claude Opus 4.7已經達到了 64.3%的水準，而國產模型在該區間的差距被放大到6-12個百分點。

這6-12個百分點，就是“杯子壁”的高度。

然而，Anthropic自己也沒有解決“簡單任務滿分、復雜任務崩塌”的問題。目前在SWE-bench Pro測試集上，還沒有模型能夠突破60%的區間。

是的，在真實場景下，模型之間的差距，遠不止是“填更高的杯子”那么簡單。

因為就現狀來看，Anthropic沒有在追更高的任務，而是在把同一層任務做得更深、更可靠、更難以替代。

例如其門下的Claude Code Channels，把同樣的高價值Agent能力，從IDE延伸到Discord和Telegram，讓非技術團隊也能用——背后的思路，是用可靠性和深度集成，不斷抬高企業的切換成本。

對V4這類后起之秀來說，這反而是比“換杯子”更危險的競爭策略——因為后者可以被追趕，前者構建的是一堵越來越厚的墻，而不是一個越來越高的桿。

鯰魚的使命

此次V4的發布，可以說精準地踩中了“天時地利人和”的每一步。

當OpenAI、Anthropic等硅谷巨頭紛紛面臨算力短缺，而老黃的地位也在被谷歌的第七代TPU、亞馬遜大規模上量的Trainium 3，甚至特斯拉自建晶圓廠等多元力量挑戰的當下，V4恰逢其時地挾國產算力殺出，就像一個沖鋒的尖兵，趁敵軍陣腳混亂的時刻，突破了重重圍困，殺出了一條生路。

但實事求是地說，這樣的“突襲”，時間窗口是有限的，前景也不見得完全明朗。

那照這么看，V4此次發布的歷史使命，究竟是什么？

答案或許是：V4真正的歷史使命，從來就不是超越或打敗Opus這樣的怪物，而是當一條永遠不安分的鯰魚。通過一次次范式、算法和架構上的創新，攪動整個國內AI行業。

而在這一次次攪動中，中國的AI企業，能從那些“大廠思維”看不到的角落里汲取靈感，不斷進行著進化與蛻變。

Kimi K2.6就是一個鮮活的例子。這款基于1萬億總參數、32B激活參數的MoE架構模型，在LiveCodeBench基準測試中取得了85%的高分，多Agent并發不限流，23個Agent同時運行仍能穩定完成開發全流程。而它的架構思路，很大程度上受到了DeepSeek此前在MoE和推理優化方面的啟發。

這就是鯰魚效應的傳導鏈條：DeepSeek的架構創新，倒逼月之暗面、智譜、MiniMax跟進優化；這些公司的競爭，又反過來推高了整個國產模型生態的水位線。不是某一條魚在游，是整個池子的水被攪活了。

而DeepSeek-V4最新的刺激是它在公告標題里寫的“邁入百萬上下文普惠時代”。業界人士博主玄感X介紹，V4戲劇性地把百萬token上下文的KV Cache降低到了傳統方案的2%。V4在訓練時就早早地開始擴展上下文長度，訓練數據量和V3比翻倍，還特別重視長文檔整理，帶來了更原生更強的長上下文性能。

在百萬token測評項的榜單里，DeepSeek-V4落后于Opus 4.6，但超越了Gemini 3.1。該人士認為V4的核心優化是CSA和HCA兩種attention機制，CSA負責抓重點，把100萬token的KV Cache壓縮成25萬條，再挑出最有用的部分計算attention；HCA負責全局，把100萬token壓成7800條后做完整attention。兩種機制交替，使得V4-Pro推理計算量比V3.2降低到27%，KV Cache降低到10%；輕量版V4-Flash更夸張，計算量10%，KV Cache僅7%，且性能全面提升。

“這種極致降本是DeepSeek的老手藝，從V2的MLA（KV Cache降低93%），到V3、V4的沿用，再到NSA對attention的改造（64K上下文取得11.6倍加速），以及V3.2的進一步落地，最終通向V4。它還把百萬token上下文的價格打了2.5折，折后價格約是御三家的5%，在國內同級別大模型里屬最便宜的一檔。”

正因為有了足夠便宜的百萬token上下文能力，V4才能在昇騰950PR并未大規模鋪貨時，就敢大降價，這使得各種推理模型、agent和復雜任務就有了更大的想象空間。

這可以看作是一次對算力的極限測試，V4這條鯰魚開始在國產算力的方向攪動了。而這次“攪動”，勢必會改變產業鏈的下注邏輯。

在V4發布之前，華為昇騰的生態推廣面臨一個死結：沒有頂級模型愿意第一個吃螃蟹，因為遷移成本極高、風險極大；但沒有頂級模型背書，下游的云廠商、企業客戶就不敢大規模采購昇騰。V4的發布，直接切斷了這個死結——阿里、字節、騰訊已經開始大批量采購昇騰950PR。

據業界調研，目前，三大廠商合計采購量超46萬顆，占昇騰950PR全年預計出貨量（75萬顆）的60%以上，不是因為它比H100更好，而是因為它被證明夠用了。“夠用”二字，在產業鏈里價值連城。

或許，過了半年或一年后，Anthropic的算力危機終將緩解，Opus終將滿血回歸，硅谷的融資機器終將重新轟鳴。但那又怎樣呢？

當一種技術路線被驗證可行后，只要這個國家的工業體系、人才儲備、資本意愿還在，它就會以“接力賽”而非“馬拉松”的形式持續下去。DeepSeek跑第一棒，Kimi跑第二棒，后面可能還有阿里、字節、甚至某個現在還沒成立的小團隊跑第三棒、第四棒。

每一棒都可能摔倒，但只要下一棒有人接著跑，Opus、英偉達的領先距離就會被不斷壓縮。而大量中國產開源大模型奔跑在國產算力芯片上，“開源模型+國產芯片”的組合，不僅為全球開發者提供了除美國閉源體系外的關鍵技術選項，也動搖了傳統算力供應鏈的壟斷結構。

即使DeepSeek某天掉出了第一梯隊，它的人才、它的技術路線、它的開源權重，已經被整個行業吸收了。

換句話說，在全球AI大博弈中，DeepSeek不需要永遠“強”下去，它只需要證明“這條路能走通”，那就是開啟了一個AI大航海時代。

本文來自微信公眾號：最話 FunTalk，作者：林書，編輯：劉宇翔

本內容由作者授權發布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4854229.html?f=wyxwapp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.