<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Ollama 0.19 來了

      0
      分享至


      Ollama 0.19 版來了,直接在 Apple Silicon 上用 MLX 重寫了推理引擎,速度飆到了一個(gè)讓人難以忽視的水平。

      還有英偉達(dá) NVPF4 傍身,強(qiáng)強(qiáng)聯(lián)合,贏麻了。

      Ollama 0.19:MLX 駕到

      Ollama 一直是 Mac 用戶跑本地大模型的首選

      但說實(shí)話,之前的速度只能算"能用",跟云端推理比起來還是差了點(diǎn)意思。

      這次 0.19 版本,Ollama 做了一個(gè)根本性的改變:底層推理引擎直接換成了 Apple 的 MLX 框架

      MLX 是 Apple 專門為自家芯片的統(tǒng)一內(nèi)存架構(gòu)(Unified Memory Architecture)打造的機(jī)器學(xué)習(xí)框架。

      簡單說,CPU 和 GPU 共享同一塊內(nèi)存,數(shù)據(jù)不用來回拷貝,天然就快。之前 Ollama 用的是 llama.cpp 的推理后端,現(xiàn)在直接上了 MLX,等于換了個(gè)渦輪增壓。

      效果有多猛?來看官方數(shù)據(jù)(基于 M5 芯片 + Qwen3.5-35B-A3B 模型):

      指標(biāo)

      Ollama 0.19 (MLX + NVFP4)

      Ollama 0.18 (llama.cpp + Q4_K_M)

      提升

      Prefill(預(yù)填充)

      1810 tokens/s

      1154 tokens/s

      +57%Decode(生成)

      112 tokens/s

      58 tokens/s

      +93%

      Prefill 速度提了 57%,生成速度幾乎翻倍

      跑 Coding Agent 的時(shí)候,那種"嗖嗖嗖"往外吐代碼的感覺,爽。

      而且 Ollama 還透露,用 int4 量化時(shí)數(shù)據(jù)更好看:prefill 能到 1851 token/s,decode 到 134 token/s。

      在 M5、M5 Pro 和 M5 Max 上,Ollama 還能利用新的GPU Neural Accelerators來同時(shí)加速首 token 延遲(TTFT)和生成速度。

      NVFP4:英偉達(dá)的 4 位浮點(diǎn)量化格式

      這次 Ollama 選用的量化格式是 NVIDIA 的NVFP4,這個(gè)值得多聊兩句。

      你可能會問:Mac 上跑大模型,跟英偉達(dá)有什么關(guān)系?

      關(guān)系大了

      NVFP4 是英偉達(dá)基于 Blackwell GPU 架構(gòu)推出的一種 4 位浮點(diǎn)數(shù)格式,最大的特點(diǎn)就是在極低精度下仍然保持很高的模型準(zhǔn)確率。

      Ollama 把它引入到 MLX 推理中,目的是讓本地用戶跑出來的結(jié)果和云端生產(chǎn)環(huán)境盡量一致。

      傳統(tǒng)量化(比如之前的 Q4_K_M)雖然也是 4 位,但精度損失比較明顯。NVFP4 的兩個(gè)核心設(shè)計(jì)讓它脫穎而出:

      1. 高精度縮放因子

      每 16 個(gè)值組成一個(gè)"微塊"(micro-block),共享一個(gè) FP8(E4M3)格式的縮放因子。相比 MXFP4 的 32 值一組 + 粗粒度的 power-of-two 縮放,NVFP4 的分組更細(xì)、縮放更準(zhǔn)。

      2. 雙層縮放策略

      在微塊級別 FP8 縮放之上,還有一個(gè)張量級別的 FP32 二級縮放因子,兩層一起工作,大幅降低量化誤差。

      英偉達(dá)官方給出的 DeepSeek-R1-0528 測試數(shù)據(jù)很有說服力:

      評測

      FP8

      NVFP4

      精度差異

      MMLU-PRO

      85%

      84%

      GPQA Diamond

      81%

      80%

      Math-500

      98%

      98%

      0

      AIME 2024

      89%

      91%

      在 AIME 2024 上 NVFP4 甚至比 FP8 還高了 2%。你沒看錯(cuò),4 位量化比 8 位的分還高。

      對 Ollama 用戶來說,NVFP4 意味著你本地跑的模型和云端推理服務(wù)(用 TensorRT-LLM、vLLM 部署的)結(jié)果幾乎一致。以前本地量化和云端之間總有一條"質(zhì)量鴻溝",現(xiàn)在這條溝被大幅填平了。

      更多關(guān)于 NVFP4 的技術(shù)細(xì)節(jié),可以看英偉達(dá)官方博客:https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

      緩存升級:Agent 場景更絲滑

      除了推理引擎大換血,0.19 在緩存機(jī)制上也做了三項(xiàng)重要改進(jìn),主要面向 Coding Agent 和多輪對話場景:

      • 更低的內(nèi)存占用:跨會話復(fù)用緩存。跑 Claude Code 這類工具時(shí),多個(gè)分支會話共享系統(tǒng)提示的緩存,內(nèi)存利用率更高。

      • 智能檢查點(diǎn):Ollama 會在 prompt 的關(guān)鍵位置保存緩存快照,后續(xù)請求命中緩存的概率更高,prompt 處理更快。

      • 更聰明的淘汰策略:共享前綴的緩存不會因?yàn)榕f分支被清理而丟失,存活時(shí)間更長。

      這三點(diǎn)對 Agent 場景特別友好——Claude Code、OpenCode、Codex 這些 AI 編程工具,底下都是不停地發(fā) prompt 給大模型,緩存命中率高了,整體響應(yīng)就快了。

      快速上手

      下載 Ollama 0.19 預(yù)覽版:https://ollama.com/download

      ?? 目前需要 32GB 以上統(tǒng)一內(nèi)存的 Mac

      目前優(yōu)先支持的是 Qwen3.5-35B-A3B 模型(Alibaba 最新的 MoE 模型,35B 參數(shù)但只激活 3B),采樣參數(shù)已經(jīng)針對編程任務(wù)做了優(yōu)化。

      Claude Code 用戶:

      ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

      OpenClaw 用戶:

      ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

      直接跑模型聊天:

      ollama run qwen3.5:35b-a3b-coding-nvfp4

      模型名稱里的nvfp4就是告訴你用的 NVFP4 量化格式。Ollama 后續(xù)會支持更多模型和架構(gòu),同時(shí)也會跟 NVIDIA 的 Model Optimizer 打通,讓你可以導(dǎo)入更多 NVFP4 優(yōu)化的模型。

      社區(qū)實(shí)測:M5 Max vs M4 Max

      說到 Apple Silicon 上的推理性能,這里推薦一個(gè)開源的MLX 推理速度測試工具

      inference-speed-tests:https://github.com/itsmostafa/inference-speed-tests

      這個(gè)項(xiàng)目和 Ollama 無關(guān),它用的是mlx-lm直接跑推理基準(zhǔn)測試。但對于想了解自己 Mac 芯片在本地大模型推理上到底什么水平的人來說,它太有用了。

      有網(wǎng)友用它對比了M5 MaxM4 Max(都是 16 寸、128GB、40 核 GPU 的頂配),結(jié)論很有參考價(jià)值:

      短 prompt(512 tokens 輸出上限):

      • Prompt 處理速度:M5 Max 提升14%~42%

      • 生成吞吐量:M5 Max 提升14%~17%

      長 prompt(~21K tokens 的摘要任務(wù),壓力測試內(nèi)存帶寬):

      • 生成速度提升類似

      • Prompt 處理差距巨大:M5 Max快了 2~3 倍

      長上下文處理快 2~3 倍,這個(gè)數(shù)據(jù)對實(shí)際使用影響很大。你想想,跑 Agent 的時(shí)候動不動就是幾萬 token 的上下文,prompt 處理快了就意味著首 token 來得更快,整個(gè)交互體驗(yàn)就上了一個(gè)臺階。

      怎么用這個(gè)工具:

      # 安裝
      git clone https://github.com/itsmostafa/inference-speed-tests
      cd inference-speed-tests
      uv sync

      # 跑個(gè)基準(zhǔn)測試
      uv run src/main.py mlx-community/Qwen3-8B-4bit -n 1

      # 跑多個(gè)模型對比
      uv run src/main.py mlx-community/Qwen3-8B-4bit mlx-community/Qwen3-14B-4bit

      # 長文本壓力測試
      uv run src/main.py mlx-community/Qwen3-8B-4bit \
      --dataset cnn_dailymail --dataset-config 3.0.0 --dataset-field article

      結(jié)果會自動按你的機(jī)器型號保存到results/目錄下,包含 prompt tps、generation tps、TTFT、峰值內(nèi)存、總時(shí)間等詳細(xì)指標(biāo)。如果你有新機(jī)器,跑完提個(gè) PR 到倉庫,就能給社區(qū)貢獻(xiàn)你的數(shù)據(jù)。

      總結(jié)

      Ollama 0.19 這次更新的核心就三件事:

      1. MLX 引擎替換:Apple Silicon 上推理速度翻倍級提升

      2. NVFP4 量化格式:英偉達(dá)的 4 位精度方案,精度損失極小,本地推理結(jié)果跟云端一致

      3. 緩存大升級:Agent 和多輪對話場景更流暢

      對 Mac 用戶來說,這是 Ollama 有史以來最重要的一次更新。之前那種"本地跑模型就是慢"的印象,現(xiàn)在該更新了。M4/M5 芯片 + 128GB 統(tǒng)一內(nèi)存 + MLX + NVFP4,這套組合拳打下來,本地推理的體驗(yàn)已經(jīng)逼近可用的門檻。

      • Ollama 博客原文:https://ollama.com/blog/mlx

      • Ollama 下載:https://ollama.com/download

      • NVFP4 技術(shù)詳解(英偉達(dá)官方):https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

      • 社區(qū)推理速度測試工具:https://github.com/itsmostafa/inference-speed-tests

      制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      女孩網(wǎng)紅秋千墜亡當(dāng)天,父母拿210萬和解:不是所有悲劇都要死磕

      女孩網(wǎng)紅秋千墜亡當(dāng)天,父母拿210萬和解:不是所有悲劇都要死磕

      子芫伴你成長
      2026-05-11 23:09:57
      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      打什么電話比12345更管用?這些電話比它管用100倍,建議收藏好

      細(xì)說職場
      2026-04-28 10:39:02
      下雨、降溫!7級大風(fēng)!江蘇最新天氣預(yù)測

      下雨、降溫!7級大風(fēng)!江蘇最新天氣預(yù)測

      江南晚報(bào)
      2026-05-13 03:00:12
      解放軍澎湖穿行 捍衛(wèi)臺海主權(quán)底線

      解放軍澎湖穿行 捍衛(wèi)臺海主權(quán)底線

      風(fēng)鈴草語
      2026-05-12 06:20:34
      過來人忠告:初中掉隊(duì)的孩子90%都栽在一個(gè)習(xí)慣,現(xiàn)在改還來得及

      過來人忠告:初中掉隊(duì)的孩子90%都栽在一個(gè)習(xí)慣,現(xiàn)在改還來得及

      蓁蓁心理撫養(yǎng)
      2026-05-12 12:30:11
      以色列全票通過重磅法案:10月7日襲擊者或被判死刑

      以色列全票通過重磅法案:10月7日襲擊者或被判死刑

      桂系007
      2026-05-12 05:59:35
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      健康科普365
      2026-05-09 21:05:04
      網(wǎng)紅瓜媽與高種姓印度老公離婚后續(xù):短視頻粉絲銳減,已停止更新

      網(wǎng)紅瓜媽與高種姓印度老公離婚后續(xù):短視頻粉絲銳減,已停止更新

      小徐講八卦
      2026-05-11 10:22:16
      白酒到底還要跌多久?

      白酒到底還要跌多久?

      墜入二次元的海洋
      2026-05-12 19:10:48
      兩條公告連發(fā)!四川一地計(jì)劃改造23個(gè)老舊小區(qū)

      兩條公告連發(fā)!四川一地計(jì)劃改造23個(gè)老舊小區(qū)

      天府觀察
      2026-05-12 21:37:35
      去年我媽住院老公扔我兩百,今年婆婆生病我回敬兩百他愣住

      去年我媽住院老公扔我兩百,今年婆婆生病我回敬兩百他愣住

      曉艾故事匯
      2026-05-10 16:25:01
      長期反核的賴瑞隆喊高雄設(shè)AI算力中心,柯志恩質(zhì)問:電從哪來

      長期反核的賴瑞隆喊高雄設(shè)AI算力中心,柯志恩質(zhì)問:電從哪來

      海峽導(dǎo)報(bào)社
      2026-05-12 17:40:18
      絕了!伊朗又想出了一個(gè)招,把全世界都看傻了

      絕了!伊朗又想出了一個(gè)招,把全世界都看傻了

      揚(yáng)子的故事屋
      2026-05-11 10:09:53
      東契奇:今年夏天我要爭奪女兒撫養(yǎng)權(quán),不能為斯洛文尼亞出戰(zhàn)

      東契奇:今年夏天我要爭奪女兒撫養(yǎng)權(quán),不能為斯洛文尼亞出戰(zhàn)

      懂球帝
      2026-05-12 14:27:11
      俄烏戰(zhàn)場“最破防”的,從來不是士兵,而是中國炮兵專家?

      俄烏戰(zhàn)場“最破防”的,從來不是士兵,而是中國炮兵專家?

      阿器談史
      2026-05-10 04:07:48
      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發(fā)生性關(guān)系,女方勒索12億美元

      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發(fā)生性關(guān)系,女方勒索12億美元

      懂球帝
      2026-05-11 09:41:18
      辛納已經(jīng)在大師賽豪取31連勝,追平德約科維奇的紀(jì)錄

      辛納已經(jīng)在大師賽豪取31連勝,追平德約科維奇的紀(jì)錄

      懂球帝
      2026-05-13 00:17:05
      伊朗收費(fèi)大旗:回?fù)裘绹牡鼐壠寰?>
    </a>
        <h3>
      <a href=風(fēng)鈴草語
      2026-05-12 06:15:30
      從狂賺到大虧15億盧布!吉利長安在俄羅斯一年從天堂摔地獄

      從狂賺到大虧15億盧布!吉利長安在俄羅斯一年從天堂摔地獄

      老馬拉車莫少裝
      2026-05-11 14:18:27
      一夜情后勒索NBA雄鹿老板12.15億美元,羅某在登機(jī)回國時(shí)被捕

      一夜情后勒索NBA雄鹿老板12.15億美元,羅某在登機(jī)回國時(shí)被捕

      聽心堂
      2026-05-12 13:19:43
      2026-05-13 03:56:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3395文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      健康
      數(shù)碼
      公開課

      教育要聞

      求求你試試「5+1+1」學(xué)習(xí)法!!!

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      干細(xì)胞能讓人“返老還童”嗎

      數(shù)碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 免费人成视频网站在线观看18| jizz国产| 国产伦一区二区三区精品| 精品精品国产自在久久| 99热国产成人最新精品| 日本一区二区三区中文字幕| 无码精品a∨在线观看中文| 国产免费福利一区二区| 人人91人人澡人人妻人人爽| 亚洲AV永久无码精品三区在线| 日韩在线观看a| 精品久久久久久无码国产| 国产日本精品视频在线观看 | 99精品国产一区二区电影| 91色拍| 豆国产96在线 | 亚洲| 日韩一区在线中文字幕| 4hc44四虎在线永久地址| 亚洲一级毛片在线观| av电影在线观看| 夜夜夜操| 日韩久久不卡| 国产亚洲欧洲AⅤ综合一区| 国产女人18毛片水真多1| 国产v亚洲v天堂无码| 精品xxx| 日本在线亚洲| 国产欧美日韩专区毛茸茸| 777午夜福利理论电影网| 翘臀少妇被扒开屁股日出水爆乳 | 2018男人天堂| 亚洲国产精品尤物YW在线观看| 不卡高清av手机在线观看| 狂野欧美性猛xxxx乱大交 | 国产精品成人无码a 无码| 中文字幕无码热在线视频| 国产精品视频第一区二区三区 | 天天插天天干天天操| 黄色片子一区二区三区| 亚洲aⅴ无码专区在线观看| 高清国产一区二区无遮挡|