Redis之父antirez發(fā)布DeepSeek V4 Flash專用推理引擎，128GB MacBook本地跑284B參數(shù)大模型

2026-05-09 14:19:14　來源: 開源中國

廣東舉報

分享至

Salvatore Sanfilippo（antirez）—— 那個寫出 Redis 的意大利程序員，最近在 GitHub 上發(fā)布了新開源項目：ds4.c，一個專為 DeepSeek V4 Flash 設計的原生推理引擎。

ds4 的核心設計圍繞 Metal GPU 展開，CPU 路徑僅保留調試用途，服務器模式更是完全 Metal-only。

項目發(fā)布不到兩天就收獲了 2600+ Star，迅速成為本地大模型推理圈子里的熱門話題。

ds4 GitHub倉庫

一、為什么只服務一個模型？

antirez 在開篇就亮明了態(tài)度：這不是通用 GGUF 加載器，不是其他運行時的包裝殼，也不是框架。ds4.c 的核心路徑是一個DeepSeek V4 Flash 專用的 Metal 圖執(zhí)行器(graph executor)，從模型加載、提示詞渲染、KV 狀態(tài)管理到 Server API 膠水層，全部圍繞這一個模型量身定制。

他認為 DeepSeek V4 Flash 值得這種「專人專事」的待遇，理由很充分：

激活參數(shù)量更少，推理更快。雖然總參數(shù)量達到 284B，但 MoE 架構下實際激活的參數(shù)遠小于同級別的密集模型。
Thinking 模式可控。在非最大思考模式下，V4 Flash 的思考過程長度往往只有其他模型的 1/5，且思考長度與問題復雜度成正比。這意味著在其他模型開啟 thinking 后幾乎無法使用的場景下，V4 Flash 依然流暢可用。
上下文窗口高達 100 萬 Token。對于需要吞入整個代碼庫或長文檔的 Agent 場景，這是決定性優(yōu)勢。
知識邊界更深。284B 參數(shù)在知識邊緣的采樣能力遠超 27B 或 35B 的小模型，尤其在專業(yè)領域問題上差距明顯。
KV Cache 極度壓縮。配合現(xiàn)代 MacBook 的高速 SSD，KV Cache 不再是內存的「房客」，而是磁盤的「一等公民」—— 長上下文推理可以在本地個人電腦上完成，甚至支持磁盤 KV 持久化。
2-bit 量化表現(xiàn)優(yōu)異。經過特殊非對稱量化后（僅路由專家量化，共享專家和投影層保持原精度），2-bit 版本在編碼 Agent 和工具調用場景下表現(xiàn)可靠，128GB 內存的 MacBook 即可運行

二、速度有多快？

antirez 公布了一組 Metal CLI 實測數(shù)據(jù)（貪婪解碼，256 Token 輸出）：

機器量化預填充（短提示）生成速度 MacBook Pro M3 Max 128GB q2 58.52 t/s 26.68 t/s Mac Studio M3 Ultra 512GB q2 84.43 t/s 36.86 t/s Mac Studio M3 Ultra 512GB q4 78.95 t/s 35.50 t/s

長上下文預填充更夸張：M3 Ultra 處理 11709 Token 的提示時，預填充速度達到 468.03 t/s。這個速度意味著即使塞入一本中等長度的書作為上下文，模型也能在幾十秒內完成預熱并開始生成。

ds4性能數(shù)據(jù)

三、CLI + Server 雙模式

編譯只需要一個make。項目提供兩個二進制文件：

ds4：交互式 CLI，默認開啟 thinking 模式，支持多輪對話、上下文調節(jié)、文件讀取等命令。每次對話都會保留 Metal KV 檢查點，下一輪直接續(xù)寫。
ds4-server：兼容 OpenAI 和 Anthropic 協(xié)議的本地 HTTP 服務。支持/v1/chat/completions/v1/messages等端點，SSE 流式輸出，工具調用，thinking 模式原生流式返回。

ds4 Server API

四、磁盤 KV Cache：會話永不過期

ds4-server 針對 Agent 客戶端「每次請求重發(fā)整段對話」的痛點，設計了一套磁盤 KV Cache 機制。啟動時指定--kv-disk-dir，服務器會將對話前綴的 KV 狀態(tài)以 SHA1 為鍵寫入磁盤。當新的無狀態(tài)請求到達時，如果前綴匹配，就直接從磁盤恢復 KV 狀態(tài)，跳過重復預填充。

antirez 對此的比喻很直接：「KV Cache 不應該只住在內存里，它應該成為磁盤的一等公民。」在 128GB 機器上運行 2-bit 模型時，合理配置 10~30 萬 Token 的上下文窗口，搭配磁盤緩存，足以讓本地編碼 Agent 獲得接近有狀態(tài)服務的體驗。

五、 Claude Code 也能接本地 DS4

項目 README 詳細給出了與主流 Agent 工具的對接方案：

Claude Code：通過 Anthropic 兼容端點 + 環(huán)境變量包裝腳本，直接把claude命令指向本地 ds4-server。作者特別提醒，Claude Code 的初始 prompt 往往有 25k Token，務必開啟磁盤 KV 緩存。
Pi：在models.json中添加 ds4 provider 配置，支持 thinking 等級映射。
opencode：通過 OpenAI 兼容端點接入，配置 context limit 和 output limit。

六、一個坦誠的聲明

antirez 在 README 中放了一段少見的坦白：「這個軟件是在 GPT 5.5 的強力輔助下開發(fā)的，人類負責主導思路、測試和調試。我們公開說明這一點，因為它塑造了項目的構建方式。如果你對 AI 生成的代碼不滿意，這款軟件不適合你。」

antirez致謝

antirez/ds4 倉庫地址: https://github.com/antirez/ds4

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.