![]()
DeepSeek V4發(fā)布后,最值得看的不是跑分,而是價格表下面一行小字。
在V4的定價說明中,DeepSeek提到,受限于高端算力,目前Pro版服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro價格會大幅下調(diào)。
這句話比很多技術參數(shù)更有信息量。它說明DeepSeek的低價已經(jīng)不再只是模型工程優(yōu)化的結果,而開始和國產(chǎn)算力的供給節(jié)奏綁定。過去,模型公司降價,外界通常理解為算法效率提升、廠商補貼或新一輪價格戰(zhàn)。但這一次,DeepSeek把未來降價的前提,直接指向了昇騰950超節(jié)點的規(guī)模化部署。
過去一年,DeepSeek 改變了中國大模型行業(yè)的定價方式。V3和R1發(fā)布后,國內(nèi)外模型廠商被迫重新計算API價格、訓練成本和商業(yè)化路徑。到了V4,問題變得更復雜。DeepSeek不只是繼續(xù)降價,而是把降價的下一步,壓到了國產(chǎn)算力的規(guī)模化部署上。在筆者看來,這意味著中國大模型的競爭正在從“誰的模型能力更強”,進入“誰能把模型、芯片、工程系統(tǒng)和商業(yè)組織連成閉環(huán)”的階段。
4月24日上午,DeepSeek宣布全新系列模型DeepSeek-V4預覽版正式上線并同步開源。
這次不是單一模型,而是兩個版本同時推出:DeepSeek-V4-Pro和DeepSeek-V4-Flash。根據(jù) DeepSeek披露的信息,V4-Pro總參數(shù)為1.6萬億,激活參數(shù)490億,定位高性能任務;V4-Flash 總參數(shù)2840億,激活參數(shù)130億,主打低成本和高吞吐。兩款模型均采用MoE架構,也就是“混合專家模型”。
知名科技產(chǎn)業(yè)時評人彭德宇對筆者分析到:MoE的邏輯并不復雜。一個大模型內(nèi)部可以有很多“專家”,但每次回答問題時,不需要所有專家同時工作,只調(diào)用最相關的一部分。這樣既能做大模型容量,又不會讓每一次調(diào)用都背上完整參數(shù)的算力負擔。對用戶來說,感知到的是模型更便宜、更快;對模型公司來說,關鍵是單位推理成本被壓低。
價格延續(xù)了DeepSeek一貫的打法。按照V4公布的API定價,Pro版輸入緩存命中價格為1元/百萬token,輸出24元/百萬token;Flash版輸入緩存命中價格為0.2元/百萬token,輸出2元/百萬token。梳理對比來看,目前智譜GLM-5.1輸入緩存命中價格約為1.3-2元/百萬token,Kimi-K2.6輸入緩存命中價格約為1.1元/百萬token。也就是說,V4的輸入價格仍然處在國內(nèi)主流模型低位。
但這并不意味著V4已經(jīng)全面拉開差距。企業(yè)戰(zhàn)略定位專家吳玉興如此對筆者分析:V4的性能突破相比R1當時帶來的沖擊要小一些。它依然處于第一梯隊,但在部分復雜Agent任務和最廣泛的世界知識上,與最頂尖閉源模型仍有差距。
V4最關鍵的點,不在參數(shù)表,而在那句關于昇騰950的說明。
DeepSeek在定價說明中明確提到,受限于高端算力,目前Pro版服務吞吐十分有限,預計下半年昇騰950超節(jié)點批量上市后,Pro價格會大幅下調(diào)。一個模型公司把未來降價和某一類算力集群的上市節(jié)奏直接綁定,這在行業(yè)里并不常見。它說明模型價格開始被算力結構決定。
過去DeepSeek便宜,更多被理解為模型架構和工程效率的勝利。V2用MoE降低激活參數(shù)規(guī)模;R1用更高效的訓練和推理路線沖擊行業(yè)對算力堆疊的依賴;那么V3則以極致成本控制與工程優(yōu)化,瓦解了通用大模型的傳統(tǒng)定價邏輯。V3和R1之后,國內(nèi)大模型被迫進入新一輪價格重估。但V4的不同之處在于,DeepSeek開始把低價的下一步,放到國產(chǎn)算力的規(guī)模化部署上。
根據(jù)DeepSeek技術報告,V4在系統(tǒng)底層做了細粒度專家并行,也就是EP方案。用通俗的話說,就是優(yōu)化模型在芯片上的調(diào)度方式,讓計算和通信像流水線一樣重疊起來,減少芯片等待時間。同樣一批芯片,如果能處理更多請求,單位推理成本自然會下降。
技術報告提到,這套EP方案已經(jīng)在英偉達GPU和華為昇騰NPU兩套體系上完成驗證,通用推理任務可實現(xiàn)1.5-1.73倍加速,在對延遲敏感的場景(如RL推演和高速代理服務)最高可達1.96倍。華為昇騰方面也在V4發(fā)布后宣布,超節(jié)點全系列產(chǎn)品支持DeepSeek V4系列模型,據(jù)了解,昇騰950通過融合kernel和多流并行技術降低Attention計算和訪存開銷,大幅提升推理性能,結合多種量化算法,實現(xiàn)了高吞吐、低時延的DeepSeek V4模型推理部署。
彭德宇對筆者說到:這組信息的意義不只是“推理更快”。它意味著 DeepSeek的工程優(yōu)化開始具備跨平臺能力。過去,大模型公司大多圍繞英偉達CUDA體系開發(fā)。CUDA不只是一個編程工具,更像AI時代的底層操作系統(tǒng)。全球大量開發(fā)者、算子庫、框架和模型代碼都圍繞CUDA構建,一旦離開這個體系,很多底層代碼需要重寫,工程成本和測試成本都很高。這也是英偉達真正的護城河。
DeepSeek現(xiàn)在做的,不是馬上推翻CUDA,而是嘗試給自己留出第二條路。綜合媒體報道信息來看,DeepSeek通過TileLang、Tile Kernels等方式,把部分底層算子邏輯從單一CUDA路徑中抽象出來,用更通用的語言表達計算邏輯,再由編譯器生成適配不同硬件的底層代碼。這樣一來,開發(fā)者不必為每一種GPU或NPU完全重寫一套代碼,而可以先寫通用邏輯,再針對具體硬件做優(yōu)化。
這對國產(chǎn)芯片很重要。國產(chǎn)AI芯片過去面臨的不只是紙面算力問題,更是軟件生態(tài)和有效利用率問題。芯片能不能用好,取決于模型、算子、編譯器、通信、顯存管理等多個環(huán)節(jié)。DeepSeek如果能在華為昇騰上跑通前沿模型,并把推理成本打下來,它帶來的不只是一個模型的適配案例,而是一次軟硬件協(xié)同的技術驗證。
但DeepSeek并沒有馬上擺脫英偉達,短期內(nèi),CUDA仍然是最成熟、最穩(wěn)定的路徑。V4釋放出的信號是,國產(chǎn)算力已經(jīng)開始進入DeepSeek的關鍵成本結構,并在一定程度上影響未來定價。它還沒有推翻CUDA,但它讓CUDA不再顯得完全不可替代。
這正是黃仁勛擔心的地方。英偉達創(chuàng)始人黃仁勛近期在接受Dwarkesh Patel專訪時曾表示,如果DeepSeek先在華為平臺上發(fā)布,對美國而言將是災難性的。李睿指出,這個判斷并不是因為DeepSeek某一項跑分超過了誰,而是因為一旦頂級開源模型能夠在非英偉達體系上穩(wěn)定運行,開發(fā)者就有可能開始改變習慣。模型足夠好,價格足夠低,工具鏈逐漸成熟,遷移就不再只是政治選擇或供應鏈選擇,而會變成商業(yè)選擇。
所以,V4的第二層意義,是DeepSeek的低價邏輯正在從“模型優(yōu)化驅(qū)動”,轉(zhuǎn)向“模型優(yōu)化+算力體系驅(qū)動”。過去,大模型價格主要由算法效率、訓練成本和廠商補貼決定;現(xiàn)在,價格開始和芯片供給、超節(jié)點部署、軟硬件協(xié)同效率綁定。對DeepSeek來說,這是一條通向更低成本的路;對英偉達來說,這是一道暫時不大、但必須警惕的裂縫。
只是,軟硬件協(xié)同不是輕資產(chǎn)生意。模型越深地嵌入芯片和基礎設施,DeepSeek要承擔的成本、組織壓力和商業(yè)化壓力也越大。
據(jù)新浪科技報道,近期DeepSeek還曝出了計劃融資500億元的消息,有接近DeepSeek的知情人士透露,DeepSeek融前估值為3000億元,約合440億美元,目前騰訊控股、阿里巴巴集團均正在洽談投資DeepSeek。不過,對于融資相關事宜,DeepSeek方面至今未正面回應媒體問詢。
具體估值不是最重要的。關鍵的是DeepSeek開始打開外部融資窗口。這意味著它面對的競爭已經(jīng)不只是模型能力,而是延伸到了算力投入、人才穩(wěn)定、員工激勵和商業(yè)化能力。
第一重壓力來自算力。V4越往國產(chǎn)算力深處走,越需要基礎設施投入。模型參數(shù)從千億級走向萬億級,訓練和推理成本都會抬升。如果還要圍繞昇騰體系做更多適配、調(diào)優(yōu)和部署,DeepSeek就不能只是一家輕資產(chǎn)模型公司。當前DeepSeek已經(jīng)在內(nèi)蒙古烏蘭察布招聘數(shù)據(jù)中心運維工程師,這是其首次招聘直接負責計算基礎設施運營的人才,這也被外界視為其向更重的算力基礎設施方向移動的信號。
對一家總共不到200人的公司來說,這類流動不是普通人員變化。媒體報道稱,DeepSeek核心研發(fā)團隊約100多人,幾乎不社招,主要依靠應屆生和實習生留任。在這樣的團隊里,一個核心研究員離開,可能影響的不是一個崗位,而是一條技術線的連續(xù)性。
這并不意味著DeepSeek的組織不好。相反,外界對DeepSeek的長期印象,正是它有一套大廠很難復制的組織方式:不打卡、不設 KPI,研究員可以自由組隊,也可以獨自鉆研新想法。這種組織方式適合早期技術突破,也解釋了為什么DeepSeek能在過去幾年不斷做出反常識的工程創(chuàng)新。但當行業(yè)進入更重的階段,問題就變了。頂級人才不只看工作自由度,也看技術方向、資源投入和落地場景。大廠能同時給錢、算力、產(chǎn)品場景和更大的團隊。
第三重壓力來自商業(yè)化。V4發(fā)布前,DeepSeek App已在4月8日改版,上線支持復雜推理的“專家模式”和處理簡單任務的“快速模式”。隨著V4發(fā)布,外界才知道,專家模式對應的是1.6萬億參數(shù)的 V4-Pro,快速模式對應的是2840億參數(shù)的V4-Flash。這個變化說明,DeepSeek 不再只是把模型放出來讓開發(fā)者使用,而是在開始打磨面向用戶的產(chǎn)品分層。
彭德宇指出,這與開源路線之間存在天然張力。開源可以快速建立技術聲量,也能讓開發(fā)者和生態(tài)伙伴更快復用DeepSeek 的路線。但開源通常意味著更薄的利潤空間,更高的成本敏感度。OpenAI、Anthropic 這類閉源公司可以通過訂閱、API、企業(yè)服務建立更直接的商業(yè)閉環(huán);谷歌、亞馬遜、微軟可以把模型成本消化在云計算和生態(tài)體系里。DeepSeek沒有這些現(xiàn)成的商業(yè)緩沖層。如果它要繼續(xù)堅持低價、開源和前沿模型研發(fā),就必須找到新的資金、算力和商業(yè)化支撐。
在筆者看來,這也是V4真正暴露出來的深層問題。它證明中國大模型已經(jīng)有能力在模型能力、推理價格和國產(chǎn)算力適配上同時向前走一步;但它也證明,大模型競爭已經(jīng)不再是少數(shù)天才寫出更好算法的比賽。下一階段拼的是算力基礎設施、工程系統(tǒng)、產(chǎn)品轉(zhuǎn)化、融資能力和人才密度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.