![]()
從現在開始,1M(一百萬)上下文將是DeepSeek所有官方服務的標配。
剛剛,DeepSeek-V4預覽版本正式上線并同步開源!
DeepSeek-V4預覽版模型按大小分為兩個版本,分別是DeepSeek-V4-pro和DeepSeek-V4-flash。DeepSeek稱,DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。
![]()
DeepSeek-V4系列在架構和優化方面引入了多項關鍵升級,首先是開創了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力,實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。在百萬Token上下文場景下,DeepSeek-V4-Pro相比DeepSeek-V3.2僅需27%的單Token推理FLOPs和10%KV緩存。DeepSeek稱,從現在開始,1M(一百萬)上下文將是DeepSeek所有官方服務的標配。
其次是流形約束超連接(Manifold-Constrained Hyper-Connections, mHC),在傳統殘差連接基礎上引入mHC,增強跨層信號傳播的穩定性,同時保留模型的表達能力。
第三是Muon優化器,能夠實現更快的收斂速度和更高的訓練穩定性。
DeepSeek-V4-Pro,比肩頂級閉源模型
相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他 Agent 相關評測中同樣表現優異。目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding 模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6 思考模式存在一定差距。
在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。
![]()
DeepSeek-V4-Flash,經濟之選
由于模型參數和激活更小,相較之下DeepSeek-V4-flash能夠提供更加快捷、經濟的 API 服務。在Agent測評中,DeepSeek-V4-Flash在簡單任務上與 DeepSeek-V4-Pro 旗鼓相當,但在高難度任務上仍有差距。
開源權重和本地部署
- DeepSeek-V4 模型開源鏈接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
- DeepSeek-V4 技術報告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.