![]()
本文來自微信公眾號:最話 FunTalk,作者:林書,編輯:劉宇翔,題圖來自:視覺中國
才發布沒兩天,DeepSeek就大降價。
4月25日晚,DeepSeek宣布對V4-Pro模型API開啟限時2.5折價格優惠。26日晚,DeepSeek又宣布V4全系列API服務的輸入緩存命中價格降至原有價格的1/10。其中,Pro模型在今年5月5日前疊加2.5折限時優惠。最新調價后,DeepSeek-V4-Flash每百萬tokens輸入緩存命中價格為0.02元,DeepSeek-V4-Pro為0.025元。
這一價格不但比國外大模型,就是比國內其他大模型都有很大價格優勢。在DeepSeek首次官宣降價的第二天,DeepSeek-V4-Flash的調用量為814億Token,較前日環比增長62.2%;DeepSeek-V4-Pro的調用量為96億Token。
雖然,完成整個任務還涉及到任務類型、模型效率、推理長度、模型輸出Token數等因素,最終賬單不僅取決于輸入價格,但大降價后,開發者們仍有望用V4跑通商業模式。
難怪有人說,“DeepSeek歸來,梁文鋒殺瘋了。”
在V4發布前的一年多里,這家曾讓硅谷側目的公司,在絕大多數時間里是自我隱匿的,外界只能通過它發布的論文來推測其進度。期間,DeepSeek團隊成員的不斷流失,至少5名核心研發成員確認離職:第一代大模型核心作者王炳宣去了騰訊,V3核心貢獻者羅福莉被雷軍以千萬年薪挖走,R1核心作者郭達雅轉投字節跳動,多模態核心研究員阮翀加盟了自動駕駛公司元戎啟行。
同時,從2025年1月R1爆紅到2026年4月V4發布,DeepSeek整整15個月沒有發布大模型新版本。同期,OpenAI連推GPT-4.5、GPT-5和多個推理變體,Anthropic迭代了三代Claude,字節豆包月活沖至3.31億,智譜和MiniMax也陸續發布了GLM-5和MniMax-2.7等新一代模型。
這“空白”的15個月,相當于DeepSeek在全球大模型競賽中隱匿了一個代際。而今,DeepSeek V4從地平線的遠方歸來,最終掀開了面紗。
從性能上看,在世界知識、推理以及Agent能力方面,DeepSeek-V4均實現國內與開源領域的領先,甚至接近了Claude-0pus-4.6等頂尖大模型。
在Agentic Coding 評測中,V4-Pro 已達到當前開源模型最佳水平,并在其他 Agent 相關評測中同樣表現優異。
![]()
在架構層面,V4完成了三重關鍵突破:一是首創CSA+HCA混合注意力機制,通過雙重壓縮將長上下文計算量降低73%、顯存占用減少90%,讓百萬上下文不再是昂貴的附加功能,而是默認基礎設施;二是引入mHC流形約束超連接,以不到7%的微小開銷解決了超深網絡的信號衰減難題;三是全面切換至Muon優化器,在訓練效率和收斂穩定性上實現了代際躍升。
這樣的突破,讓DeepSeek終究不負眾望,但此次V4最讓人期待的重要突破是對國產算力的適配,將底層代碼全面遷移至華為的CANN生態,讓V4的推理能運行在昇騰950PR芯片。
這需要經歷一次艱難的適配過程,可以看作是國產AI的“探月工程”,需要從DeepSeek到華為再到半導體設備廠商等整個鏈條的配合。
這不是一個輕松的技術決策,這是一場賭上公司乃至整個國產大模型業界未來命運的架構豪賭。
而理解這場豪賭,需要先看清一個正在吞噬整個AI行業的結構性困境。
必然與偶然
2026年的AI行業,正在經歷一場教科書級別的杰文斯悖論。
1865年,英國經濟學家威廉·杰文斯觀察到一個反直覺現象:蒸汽機的效率越高,英國的煤炭消耗總量反而越大。效率提升不會減少資源消耗,反而會因為使用門檻降低而刺激更大的需求。160年后,同樣的劇情正在AI推理算力上重演。
根據清華大學最新發布的《Token經濟學全景報告》,過去三年,模型推理成本下降了280倍,但企業的AI總支出反而增長了2.4倍。
同樣地,36氪對企業支出的調查統計也顯示:AI推理成本在18個月內下跌超過80%,但中國三大云廠商卻在同一周宣布漲價。越便宜,燒得越兇。推理成本變得愈發昂貴,這是整個行業的結構性宿命。
最先被這個宿命擊中的,是硅谷的標桿企業Anthropic。
2026年,Anthropic僅推理成本一項預計就將達到141億美元,比2025年增長68%。公司2025年全年現金消耗約85億美元,2026年預計全年虧損140億。CEO Dario Amodei在播客中說了一句讓整個行業倒吸冷氣的話:“如果我的收入無法達到1萬億美元……一旦我購買了那么多的算力,地球上沒有任何力量能阻止我破產。”
這是行業的“大必然”——使用成本邊際降低,需求快速上升,推理總算力需求會快速反噬AI企業的利潤,沒有人能幸免。
而在這個大必然之下,出現了一個“小偶然”。
3月初,用戶發現Claude Opus 4.6的性能出現了明顯下降。編程能力斷崖式滑坡,推理深度崩塌67%,第三方測試排名從前2跌至第7。但Token消耗反而增加了——降智的同時還在變相漲價。
![]()
Anthropic官方的解釋是“自適應思考模式優化”,但業界心知肚明:這是算力告急的征兆。
此前AnthropicCEO Dario Amodei在自己的公開播客采訪表示,到年底,公司需要超過5GW的算力才能滿足推理和訓練需求,但因為此前采購過于保守,公司已經面臨“不得不接受更高價格”的局面。
這場算力危機,并不只是Anthropic一家的噩夢。
同期的OpenAI同樣焦頭爛額。GPU租賃價格在60天內暴漲48%,英偉達Blackwell芯片供應全面告急;2026年美國原計劃上線的AI數據中心,有將近一半因為電網瓶頸和建設延期被推遲或取消,形成了高達7GW的算力缺口。
但需要指出的是,這樣的算力“短缺”其實是一種“貴族的饑餓”——硅谷目前仍然掌握著全球最大的算力池,在絕對算力上碾壓中國,只是這個池子,現在暫時填不滿它們AGI野心的胃口。
但盡管如此,V4仍然獲得了一個難得的突圍“窗口期”:那就是在硅谷巨頭算力高攀不下時,從成本結構上,對其實施“突襲”。
國產算力的“突襲”
可能有人會問:這樣的“突襲”,究竟意味著什么?是指V4趁Anthropic算力短缺、模型降智之時,以較低成本殺入編程領域,實現對開發者群體的搶占嗎?
很遺憾,這樣的想象在現實中并不成立。
說實話,V4發布后,筆者第一時間與技術社區的開發者進行了討論,但相當一部分開發者表示,即使V4在價格上,與Opus相比有較大優勢,他們也不會將其當成實際工作中的首選。
為什么?因為在一線開發者和程序員看來,編程工具,往往只有最優,沒有次優。甚至可以直接說,在AI coding領域,第一名會贏家通吃。
根據某一線開發者反饋,實際用的時候,國產模型便宜的那點錢,在多輪出錯的場景下,其實貴的要死,開發者使用Opus或codex交互,能實現一遍過,成本可能是1美元,而某些國內模型,可能需要5輪才過,成本是2美元。
如果V4在編程和復雜推理上無法匹敵Opus的巔峰狀態,多數人不會輕易切換。這是現實,不必回避。
因此,真正能讓V4實現“突襲”的,可能是另一個戰場。
此次V4發布,除了百萬上下文、全棧國產化算力適配(如華為昇騰、寒武紀等)、以及混合注意力架構(CSA + HCA)與流形學習優化等底層技術創新之外,更重要的升級,就是DeepSeek在Agent方向上的突破。
其在Agentic Coding評測中成為開源最佳,內部使用體驗已優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,并針對Claude Code、OpenClaw、CodeBuddy等主流Agent框架做了專項優化,明確將自身定位為Agent基礎設施。
而Agent能力,之所以當下變得如此重要,是因為目前的AI競爭,已經進入到了一個新階段。
2026年第一季度,一個數字震動了整個AI行業:中國大模型Token日均調用量首次超越美國。國家數據局的曲線近乎垂直:從2024年初的約1000億,到2025年中突破30萬億,到2026年2月達到180萬億。兩年漲了1800倍。
而驅動這最后一段最陡峭增長的,恰恰是OpenClaw生態的高頻調用需求。
然而,就在這關鍵的檔口,Anthropic卻主動將大量中低端用戶“推向”了中國。
當OpenClaw在全球擴散后,Anthropic很快發現一個問題:一個每月付49美元Claude Max訂閱費的用戶,如果用OpenClaw跑一個7×24小時的自主Agent實例,消耗的算力相當于幾百個普通對話用戶一個月的總量。
訂閱制定價根本無法在Agent時代維持盈利。于是Anthropic宣布:通過個人訂閱賬號的OAuth令牌接入第三方工具,屬于違規行為,發現即封號,無緩沖期。
之后,中國模型的調用量開始在Agent方向持續瘋漲。
根據OpenRouter平臺2026年4月第一周的最新統計數據顯示,中國AI大模型周調用量高達12.96萬億Token,連續五周超越美國。
![]()
這就是Agent時代競爭維度的切換:在對話式AI時代,模型的質量上限決定一切;在Agent時代,成本、穩定性、對高頻調用的支持程度,首次跑到了質量前面。
這個維度的切換,恰好是中國AI的優勢區間。
所以這場“突襲”的實質是:DeepSeek V4這類中國AI,以不俗的性能+低廉的國產算力,在Agent的中間層場景里,用成本和穩定性切走了一塊原本屬于他們的蛋糕。
這樣的不對稱優勢,就是規則轉換期的機會窗口。
杯子壁的高度
如果按照某種模型迭代的推演邏輯,在未來,隨著國產模型不斷地迭代、進步,在Agent這個賽道上,國產大模型的能力,最終會達到大多數常規任務的上限,畢竟,常規任務就像一只容量有限的“杯子”,往里倒再多的智能,最終的結果也只能是“溢出”。
到了那時,在Agent場景下,性能與Opus已無太大區別的國產AI,將通過國產算力的低成本,取得進一步優勢;
昇騰950PR定價7萬元,英偉達同級別H200在中國市場報價高達25萬元,這相當于是便宜了三分之二的價格。
然而,現實終歸是復雜的、有灰度的,真實情況也許遠比這更詭譎。
在Anthropic自己發布的《2026 Agentic Coding Trends Report》中,其將現在的Agent任務分成了三層:
底層(高頻、低風險):代碼補全、單元測試生成、文檔注釋、格式規范化、簡單Bug修復。這類任務占企業Agent調用量的約65%;
中層(中頻、中風險):跨文件重構、API集成、數據庫查詢優化、報告生成、合同條款提取。占約28%;
頂層(低頻、高風險):生產級系統架構決策、安全漏洞審計、復雜財務建模、多步驟法律合規分析。占約7%;
底層那65%,“杯子溢出”論完全成立。代碼補全到了正確就是正確,你用Opus 4.7還是用DeepSeek V4,最終的單元測試通不通過是客觀事實,沒有“更通過”這個說法。
但頂層那7%,才是真正拉開差距的地方。
SWE-bench Pro是目前最接近真實生產環境的代碼基準——它用的是真實企業代碼庫里的真實工單,而非精心設計的題目。
而在這個區間,Anthropic最新的Claude Opus 4.7已經達到了 64.3%的水準,而國產模型在該區間的差距被放大到6-12個百分點。
這6-12個百分點,就是“杯子壁”的高度。
然而,Anthropic自己也沒有解決“簡單任務滿分、復雜任務崩塌”的問題。目前在SWE-bench Pro測試集上,還沒有模型能夠突破60%的區間。
是的,在真實場景下,模型之間的差距,遠不止是“填更高的杯子”那么簡單。
因為就現狀來看,Anthropic沒有在追更高的任務,而是在把同一層任務做得更深、更可靠、更難以替代。
例如其門下的Claude Code Channels,把同樣的高價值Agent能力,從IDE延伸到Discord和Telegram,讓非技術團隊也能用——背后的思路,是用可靠性和深度集成,不斷抬高企業的切換成本。
對V4這類后起之秀來說,這反而是比“換杯子”更危險的競爭策略——因為后者可以被追趕,前者構建的是一堵越來越厚的墻,而不是一個越來越高的桿。
鯰魚的使命
此次V4的發布,可以說精準地踩中了“天時地利人和”的每一步。
當OpenAI、Anthropic等硅谷巨頭紛紛面臨算力短缺,而老黃的地位也在被谷歌的第七代TPU、亞馬遜大規模上量的Trainium 3,甚至特斯拉自建晶圓廠等多元力量挑戰的當下,V4恰逢其時地挾國產算力殺出,就像一個沖鋒的尖兵,趁敵軍陣腳混亂的時刻,突破了重重圍困,殺出了一條生路。
但實事求是地說,這樣的“突襲”,時間窗口是有限的,前景也不見得完全明朗。
那照這么看,V4此次發布的歷史使命,究竟是什么?
答案或許是:V4真正的歷史使命,從來就不是超越或打敗Opus這樣的怪物,而是當一條永遠不安分的鯰魚。通過一次次范式、算法和架構上的創新,攪動整個國內AI行業。
而在這一次次攪動中,中國的AI企業,能從那些“大廠思維”看不到的角落里汲取靈感,不斷進行著進化與蛻變。
Kimi K2.6就是一個鮮活的例子。這款基于1萬億總參數、32B激活參數的MoE架構模型,在LiveCodeBench基準測試中取得了85%的高分,多Agent并發不限流,23個Agent同時運行仍能穩定完成開發全流程。而它的架構思路,很大程度上受到了DeepSeek此前在MoE和推理優化方面的啟發。
這就是鯰魚效應的傳導鏈條:DeepSeek的架構創新,倒逼月之暗面、智譜、MiniMax跟進優化;這些公司的競爭,又反過來推高了整個國產模型生態的水位線。不是某一條魚在游,是整個池子的水被攪活了。
而DeepSeek-V4最新的刺激是它在公告標題里寫的“邁入百萬上下文普惠時代”。業界人士博主玄感X介紹,V4戲劇性地把百萬token上下文的KV Cache降低到了傳統方案的2%。V4在訓練時就早早地開始擴展上下文長度,訓練數據量和V3比翻倍,還特別重視長文檔整理,帶來了更原生更強的長上下文性能。
在百萬token測評項的榜單里,DeepSeek-V4落后于Opus 4.6,但超越了Gemini 3.1。該人士認為V4的核心優化是CSA和HCA兩種attention機制,CSA負責抓重點,把100萬token的KV Cache壓縮成25萬條,再挑出最有用的部分計算attention;HCA負責全局,把100萬token壓成7800條后做完整attention。兩種機制交替,使得V4-Pro推理計算量比V3.2降低到27%,KV Cache降低到10%;輕量版V4-Flash更夸張,計算量10%,KV Cache僅7%,且性能全面提升。
“這種極致降本是DeepSeek的老手藝,從V2的MLA(KV Cache降低93%),到V3、V4的沿用,再到NSA對attention的改造(64K上下文取得11.6倍加速),以及V3.2的進一步落地,最終通向V4。它還把百萬token上下文的價格打了2.5折,折后價格約是御三家的5%,在國內同級別大模型里屬最便宜的一檔。”
正因為有了足夠便宜的百萬token上下文能力,V4才能在昇騰950PR并未大規模鋪貨時,就敢大降價,這使得各種推理模型、agent和復雜任務就有了更大的想象空間。
這可以看作是一次對算力的極限測試,V4這條鯰魚開始在國產算力的方向攪動了。而這次“攪動”,勢必會改變產業鏈的下注邏輯。
在V4發布之前,華為昇騰的生態推廣面臨一個死結:沒有頂級模型愿意第一個吃螃蟹,因為遷移成本極高、風險極大;但沒有頂級模型背書,下游的云廠商、企業客戶就不敢大規模采購昇騰。V4的發布,直接切斷了這個死結——阿里、字節、騰訊已經開始大批量采購昇騰950PR。
據業界調研,目前,三大廠商合計采購量超46萬顆,占昇騰950PR全年預計出貨量(75萬顆)的60%以上,不是因為它比H100更好,而是因為它被證明夠用了。“夠用”二字,在產業鏈里價值連城。
或許,過了半年或一年后,Anthropic的算力危機終將緩解,Opus終將滿血回歸,硅谷的融資機器終將重新轟鳴。但那又怎樣呢?
當一種技術路線被驗證可行后,只要這個國家的工業體系、人才儲備、資本意愿還在,它就會以“接力賽”而非“馬拉松”的形式持續下去。DeepSeek跑第一棒,Kimi跑第二棒,后面可能還有阿里、字節、甚至某個現在還沒成立的小團隊跑第三棒、第四棒。
每一棒都可能摔倒,但只要下一棒有人接著跑,Opus、英偉達的領先距離就會被不斷壓縮。而大量中國產開源大模型奔跑在國產算力芯片上,“開源模型+國產芯片”的組合,不僅為全球開發者提供了除美國閉源體系外的關鍵技術選項,也動搖了傳統算力供應鏈的壟斷結構。
即使DeepSeek某天掉出了第一梯隊,它的人才、它的技術路線、它的開源權重,已經被整個行業吸收了。
換句話說,在全球AI大博弈中,DeepSeek不需要永遠“強”下去,它只需要證明“這條路能走通”,那就是開啟了一個AI大航海時代。
本文來自微信公眾號:最話 FunTalk,作者:林書,編輯:劉宇翔
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4854229.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.