Salvatore Sanfilippo(antirez)—— 那個寫出 Redis 的意大利程序員,最近在 GitHub 上發(fā)布了新開源項目:ds4.c,一個專為 DeepSeek V4 Flash 設計的原生推理引擎。
ds4 的核心設計圍繞 Metal GPU 展開,CPU 路徑僅保留調試用途,服務器模式更是完全 Metal-only。
項目發(fā)布不到兩天就收獲了 2600+ Star,迅速成為本地大模型推理圈子里的熱門話題。
![]()
ds4 GitHub倉庫
一、為什么只服務一個模型?
antirez 在開篇就亮明了態(tài)度:這不是通用 GGUF 加載器,不是其他運行時的包裝殼,也不是框架。ds4.c 的核心路徑是一個DeepSeek V4 Flash 專用的 Metal 圖執(zhí)行器(graph executor),從模型加載、提示詞渲染、KV 狀態(tài)管理到 Server API 膠水層,全部圍繞這一個模型量身定制。
他認為 DeepSeek V4 Flash 值得這種「專人專事」的待遇,理由很充分:
- 激活參數(shù)量更少,推理更快。雖然總參數(shù)量達到 284B,但 MoE 架構下實際激活的參數(shù)遠小于同級別的密集模型。
- Thinking 模式可控。在非最大思考模式下,V4 Flash 的思考過程長度往往只有其他模型的 1/5,且思考長度與問題復雜度成正比。這意味著在其他模型開啟 thinking 后幾乎無法使用的場景下,V4 Flash 依然流暢可用。
- 上下文窗口高達 100 萬 Token。對于需要吞入整個代碼庫或長文檔的 Agent 場景,這是決定性優(yōu)勢。
- 知識邊界更深。284B 參數(shù)在知識邊緣的采樣能力遠超 27B 或 35B 的小模型,尤其在專業(yè)領域問題上差距明顯。
- KV Cache 極度壓縮。配合現(xiàn)代 MacBook 的高速 SSD,KV Cache 不再是內存的「房客」,而是磁盤的「一等公民」—— 長上下文推理可以在本地個人電腦上完成,甚至支持磁盤 KV 持久化。
- 2-bit 量化表現(xiàn)優(yōu)異。經過特殊非對稱量化后(僅路由專家量化,共享專家和投影層保持原精度),2-bit 版本在編碼 Agent 和工具調用場景下表現(xiàn)可靠,128GB 內存的 MacBook 即可運行
二、速度有多快?
antirez 公布了一組 Metal CLI 實測數(shù)據(jù)(貪婪解碼,256 Token 輸出):
機器 量化 預填充(短提示) 生成速度 MacBook Pro M3 Max 128GB q2 58.52 t/s 26.68 t/s Mac Studio M3 Ultra 512GB q2 84.43 t/s 36.86 t/s Mac Studio M3 Ultra 512GB q4 78.95 t/s 35.50 t/s
長上下文預填充更夸張:M3 Ultra 處理 11709 Token 的提示時,預填充速度達到 468.03 t/s。這個速度意味著即使塞入一本中等長度的書作為上下文,模型也能在幾十秒內完成預熱并開始生成。
![]()
ds4性能數(shù)據(jù)
三、CLI + Server 雙模式
編譯只需要一個make。項目提供兩個二進制文件:
ds4:交互式 CLI,默認開啟 thinking 模式,支持多輪對話、上下文調節(jié)、文件讀取等命令。每次對話都會保留 Metal KV 檢查點,下一輪直接續(xù)寫。ds4-server:兼容 OpenAI 和 Anthropic 協(xié)議的本地 HTTP 服務。支持/v1/chat/completions/v1/messages等端點,SSE 流式輸出,工具調用,thinking 模式原生流式返回。
四、磁盤 KV Cache:會話永不過期
ds4-server 針對 Agent 客戶端「每次請求重發(fā)整段對話」的痛點,設計了一套磁盤 KV Cache 機制。啟動時指定--kv-disk-dir,服務器會將對話前綴的 KV 狀態(tài)以 SHA1 為鍵寫入磁盤。當新的無狀態(tài)請求到達時,如果前綴匹配,就直接從磁盤恢復 KV 狀態(tài),跳過重復預填充。
antirez 對此的比喻很直接:「KV Cache 不應該只住在內存里,它應該成為磁盤的一等公民。」在 128GB 機器上運行 2-bit 模型時,合理配置 10~30 萬 Token 的上下文窗口,搭配磁盤緩存,足以讓本地編碼 Agent 獲得接近有狀態(tài)服務的體驗。
五、 Claude Code 也能接本地 DS4
項目 README 詳細給出了與主流 Agent 工具的對接方案:
- Claude Code:通過 Anthropic 兼容端點 + 環(huán)境變量包裝腳本,直接把
claude命令指向本地 ds4-server。作者特別提醒,Claude Code 的初始 prompt 往往有 25k Token,務必開啟磁盤 KV 緩存。 - Pi:在
models.json中添加 ds4 provider 配置,支持 thinking 等級映射。 - opencode:通過 OpenAI 兼容端點接入,配置 context limit 和 output limit。
六、一個坦誠的聲明
antirez 在 README 中放了一段少見的坦白:「這個軟件是在 GPT 5.5 的強力輔助下開發(fā)的,人類負責主導思路、測試和調試。我們公開說明這一點,因為它塑造了項目的構建方式。如果你對 AI 生成的代碼不滿意,這款軟件不適合你。」
同時他也不忘致敬 llama.cpp 和 GGML:「這個項目沒有鏈接 GGML,但它因 llama.cpp 開辟的道路而存在。」ds4.c 在 MIT 協(xié)議下保留了 GGML 作者的版權聲明。
![]()
antirez致謝
antirez/ds4 倉庫地址: https://github.com/antirez/ds4
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.