網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Ollama 0.19 來了

2026-04-06 23:01:12　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

Ollama 0.19 版來了，直接在 Apple Silicon 上用 MLX 重寫了推理引擎，速度飆到了一個(gè)讓人難以忽視的水平。

還有英偉達(dá) NVPF4 傍身，強(qiáng)強(qiáng)聯(lián)合，贏麻了。

Ollama 0.19：MLX 駕到

Ollama 一直是 Mac 用戶跑本地大模型的首選

但說實(shí)話，之前的速度只能算"能用"，跟云端推理比起來還是差了點(diǎn)意思。

這次 0.19 版本，Ollama 做了一個(gè)根本性的改變：底層推理引擎直接換成了 Apple 的 MLX 框架。

MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)（Unified Memory Architecture）打造的機(jī)器學(xué)習(xí)框架。

簡單說，CPU 和 GPU 共享同一塊內(nèi)存，數(shù)據(jù)不用來回拷貝，天然就快。之前 Ollama 用的是 llama.cpp 的推理后端，現(xiàn)在直接上了 MLX，等于換了個(gè)渦輪增壓。

效果有多猛？來看官方數(shù)據(jù)（基于 M5 芯片 + Qwen3.5-35B-A3B 模型）：

指標(biāo)

Ollama 0.19 (MLX + NVFP4)

Ollama 0.18 (llama.cpp + Q4_K_M)

提升

Prefill（預(yù)填充）

1810 tokens/s

1154 tokens/s

+57%Decode（生成）

112 tokens/s

58 tokens/s

+93%

Prefill 速度提了 57%，生成速度幾乎翻倍

跑 Coding Agent 的時(shí)候，那種"嗖嗖嗖"往外吐代碼的感覺，爽。

而且 Ollama 還透露，用 int4 量化時(shí)數(shù)據(jù)更好看：prefill 能到 1851 token/s，decode 到 134 token/s。

在 M5、M5 Pro 和 M5 Max 上，Ollama 還能利用新的GPU Neural Accelerators來同時(shí)加速首 token 延遲（TTFT）和生成速度。

NVFP4：英偉達(dá)的 4 位浮點(diǎn)量化格式

這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4，這個(gè)值得多聊兩句。

你可能會問：Mac 上跑大模型，跟英偉達(dá)有什么關(guān)系？

關(guān)系大了

NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式，最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

Ollama 把它引入到 MLX 推理中，目的是讓本地用戶跑出來的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

傳統(tǒng)量化（比如之前的 Q4_K_M）雖然也是 4 位，但精度損失比較明顯。NVFP4 的兩個(gè)核心設(shè)計(jì)讓它脫穎而出：

1. 高精度縮放因子

每 16 個(gè)值組成一個(gè)"微塊"（micro-block），共享一個(gè) FP8（E4M3）格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放，NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

2. 雙層縮放策略

在微塊級別 FP8 縮放之上，還有一個(gè)張量級別的 FP32 二級縮放因子，兩層一起工作，大幅降低量化誤差。

英偉達(dá)官方給出的 DeepSeek-R1-0528 測試數(shù)據(jù)很有說服力：

評測

FP8

NVFP4

精度差異

MMLU-PRO

85%

84%

GPQA Diamond

81%

80%

Math-500

98%

AIME 2024

89%

91%

在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒看錯(cuò)，4 位量化比 8 位的分還高。

對 Ollama 用戶來說，NVFP4 意味著你本地跑的模型和云端推理服務(wù)（用 TensorRT-LLM、vLLM 部署的）結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝"，現(xiàn)在這條溝被大幅填平了。

更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié)，可以看英偉達(dá)官方博客：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

緩存升級：Agent 場景更絲滑

除了推理引擎大換血，0.19 在緩存機(jī)制上也做了三項(xiàng)重要改進(jìn)，主要面向 Coding Agent 和多輪對話場景：

更低的內(nèi)存占用：跨會話復(fù)用緩存。跑 Claude Code 這類工具時(shí)，多個(gè)分支會話共享系統(tǒng)提示的緩存，內(nèi)存利用率更高。
智能檢查點(diǎn)：Ollama 會在 prompt 的關(guān)鍵位置保存緩存快照，后續(xù)請求命中緩存的概率更高，prompt 處理更快。
更聰明的淘汰策略：共享前綴的緩存不會因?yàn)榕f分支被清理而丟失，存活時(shí)間更長。

這三點(diǎn)對 Agent 場景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具，底下都是不停地發(fā) prompt 給大模型，緩存命中率高了，整體響應(yīng)就快了。

快速上手

下載 Ollama 0.19 預(yù)覽版：https://ollama.com/download

?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型（Alibaba 最新的 MoE 模型，35B 參數(shù)但只激活 3B），采樣參數(shù)已經(jīng)針對編程任務(wù)做了優(yōu)化。

Claude Code 用戶：

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

OpenClaw 用戶：

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

直接跑模型聊天：

ollama run qwen3.5:35b-a3b-coding-nvfp4

模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會支持更多模型和架構(gòu)，同時(shí)也會跟 NVIDIA 的 Model Optimizer 打通，讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

社區(qū)實(shí)測：M5 Max vs M4 Max

說到 Apple Silicon 上的推理性能，這里推薦一個(gè)開源的MLX 推理速度測試工具：

inference-speed-tests：https://github.com/itsmostafa/inference-speed-tests

這個(gè)項(xiàng)目和 Ollama 無關(guān)，它用的是mlx-lm直接跑推理基準(zhǔn)測試。但對于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來說，它太有用了。

有網(wǎng)友用它對比了M5 Max和M4 Max（都是 16 寸、128GB、40 核 GPU 的頂配），結(jié)論很有參考價(jià)值：

短 prompt（512 tokens 輸出上限）：

Prompt 處理速度：M5 Max 提升14%~42%
生成吞吐量：M5 Max 提升14%~17%

長 prompt（~21K tokens 的摘要任務(wù)，壓力測試內(nèi)存帶寬）：

生成速度提升類似
Prompt 處理差距巨大：M5 Max快了 2~3 倍

長上下文處理快 2~3 倍，這個(gè)數(shù)據(jù)對實(shí)際使用影響很大。你想想，跑 Agent 的時(shí)候動不動就是幾萬 token 的上下文，prompt 處理快了就意味著首 token 來得更快，整個(gè)交互體驗(yàn)就上了一個(gè)臺階。

怎么用這個(gè)工具：

# 安裝
git clone https://github.com/itsmostafa/inference-speed-tests
cd inference-speed-tests
uv sync

 # 跑個(gè)基準(zhǔn)測試
uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

 # 跑多個(gè)模型對比
uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

 # 長文本壓力測試
uv run src/main.py mlx-community/Qwen3-8B-4bit \
  --dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

結(jié)果會自動按你的機(jī)器型號保存到results/目錄下，包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時(shí)間等詳細(xì)指標(biāo)。如果你有新機(jī)器，跑完提個(gè) PR 到倉庫，就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

總結(jié)

Ollama 0.19 這次更新的核心就三件事：

MLX 引擎替換：Apple Silicon 上推理速度翻倍級提升
NVFP4 量化格式：英偉達(dá)的 4 位精度方案，精度損失極小，本地推理結(jié)果跟云端一致
緩存大升級：Agent 和多輪對話場景更流暢

對 Mac 用戶來說，這是 Ollama 有史以來最重要的一次更新。之前那種"本地跑模型就是慢"的印象，現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4，這套組合拳打下來，本地推理的體驗(yàn)已經(jīng)逼近可用的門檻。

Ollama 博客原文：https://ollama.com/blog/mlx
Ollama 下載：https://ollama.com/download
NVFP4 技術(shù)詳解（英偉達(dá)官方）：https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
社區(qū)推理速度測試工具：https://github.com/itsmostafa/inference-speed-tests

制作不易，如果這篇文章覺得對你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.