作者|子川
來(lái)源|AI先鋒官
作為明星產(chǎn)品,必須得用放大鏡看!
正值DeepSeek-R1 發(fā)布一周年之際,DeepSeek 在 GitHub 上悄悄更新了一波代碼。
結(jié)果,眼尖的開(kāi)發(fā)者在 DeepSeek 核心的推理優(yōu)化庫(kù)FlashMLA中,發(fā)現(xiàn)了一個(gè)此前從未公開(kāi)過(guò)的神秘代號(hào):“MODEL1”。
![]()
目前,行業(yè)內(nèi)普遍猜測(cè),這極有可能就是DeepSeek即將發(fā)布的下一代旗艦?zāi)P汀?/p>
而這次曝光的“MODEL1”,到底是什么來(lái)頭?
首先,我們要知道它是怎么被發(fā)現(xiàn)的。
這次泄露的源頭,來(lái)自DeepSeek的一個(gè)開(kāi)源項(xiàng)目——FlashMLA。
可能大家對(duì)FlashMLA不太熟悉,這里給大家簡(jiǎn)單介紹一下。
這是DeepSeek自研工具,專門為英偉達(dá)GPU做深度優(yōu)化。
正是有了它,DeepSeek才能在模型架構(gòu)層面減少內(nèi)存占用,把GPU硬件的性能榨干到極致,從而實(shí)現(xiàn)了“低成本高性能”。
而在最近更新的代碼中,開(kāi)發(fā)者們發(fā)現(xiàn)在橫跨114個(gè)文件中,有28處都明確提到了“MODEL1”這個(gè)新標(biāo)識(shí)符。
在代碼邏輯里,“MODEL1”是與“V32”(也就是DeepSeek-V3.2)并列存在的。
![]()
這意味著,它絕不是V3版本的簡(jiǎn)單修補(bǔ),而是一個(gè)采用了全新架構(gòu)的獨(dú)立模型。
根據(jù)技術(shù)大神的深度分析,“MODEL1”的核心變化主要體現(xiàn)在“回歸標(biāo)準(zhǔn)”和“極致效率”上。
以前的V3模型,為了追求極致性能,采用了一種比較特殊的576維設(shè)計(jì),而“MODEL1”則切換回了512維的標(biāo)準(zhǔn)配置。
這樣做的好處非常明顯:它能更好地適配英偉達(dá)下一代Blackwell(SM100)芯片。
不僅如此,“MODEL1”還引入了更高級(jí)的“稀疏化”技術(shù)。
在代碼中,出現(xiàn)了大量針對(duì)FP8(8位浮點(diǎn)數(shù))數(shù)據(jù)格式的解碼支持,以及鍵值(KV)緩存的優(yōu)化。
它能在處理極長(zhǎng)內(nèi)容時(shí),智能地跳過(guò)不重要的計(jì)算步驟,同時(shí)利用FP8格式把記憶內(nèi)容進(jìn)行高保真壓縮。
這直接帶來(lái)的結(jié)果就是:內(nèi)存占用大幅降低,計(jì)算效率成倍提升。
這意味著,可以用更便宜的顯卡,就能跑得動(dòng)更強(qiáng)的模型。
那么,這個(gè)“MODEL1”到底是傳說(shuō)中的V4,還是推理模型R2?
目前行業(yè)內(nèi)主要有兩種看法。
一種觀點(diǎn)認(rèn)為,它是DeepSeek V4。
按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級(jí)架構(gòu)跨越,邏輯上即為 V4。
并且此前就有外媒報(bào)道,DeepSeek計(jì)劃在2月(春節(jié)前后)發(fā)布新一代旗艦?zāi)P蚔4,且內(nèi)部測(cè)試顯示其編程能力已經(jīng)超越了市場(chǎng)上的頂級(jí)模型。
另一種觀點(diǎn)則認(rèn)為,它是DeepSeek R2。
最近一個(gè)月,DeepSeek團(tuán)隊(duì)連續(xù)發(fā)布了兩篇重磅技術(shù)論文,介紹了一種名為“優(yōu)化殘差連接(mHC)”的新訓(xùn)練方法,以及一種模仿生物大腦的“AI記憶模塊(Engram)”。
如果“MODEL1”整合了這些最新的黑科技,讓AI擁有了類似人類的記憶機(jī)制,那它極有可能就是備受期待的“推理之王”R2。
不論是V4還是R2,至少有一點(diǎn)可以確定,DeepSeek的新模型快發(fā)布了!
結(jié)合目前模型文件結(jié)構(gòu)來(lái)看,“MODEL1”很可能已接近訓(xùn)練完成或推理部署階段,正等待最終的權(quán)重凍結(jié)和測(cè)試驗(yàn)證。
這意味著,新模型的上線時(shí)間越來(lái)越近了。
那個(gè)曾在全球掀起波瀾的“DeepSeek時(shí)刻”還會(huì)在今年重現(xiàn)嗎?我們拭目以待!
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.