<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      三大推理框架vLLM、llama.cpp、MLX 全部跟進!!!

      0
      分享至

      本文是續集,看下主流推理框架跟進了情況

      全面開花:誰在做,做到了什么程度?

      先給一張全景圖,讓你 30 秒掌握當前進展:

      框架

      平臺

      狀態

      核心亮點

      oMLX

      Apple Silicon

      ? 已發布(v0.2.21)

      128K 上下文 KV 省 79%,一鍵開啟

      mlx-vlm

      Apple Silicon

      PR 進行中

      Metal kernel 實現,解碼速度逼近全精度

      llama.cpp

      全平臺

      實驗中

      已有可編譯分支,社區在推進

      vLLM

      CUDA

      方案已出

      完整 6 步集成計劃,等 PR


      oMLX:Mac 用戶已經可以用了

      這是目前進度最快的——oMLX v0.2.21 已經把 TurboQuant KV Cache 作為實驗功能正式發布了


      oMLX TurboQuant KV Cache 功能界面

      先簡單說說 oMLX 是什么:這是一個專為 Mac 優化的本地 LLM 推理服務器,支持菜單欄管理、連續批處理、熱/冷兩級 KV Cache(內存+SSD),還有漂亮的 Admin Dashboard。用 Homebrew 裝完就能跑,OpenAI API 兼容,Claude Code、OpenCode 都能直接對接。

      更具體介紹請看:

      TurboQuant 在 oMLX 里的實現思路很巧妙:

      Prefill 階段完全用 fp16,零質量損失。第一個 decode token 生成時,才把累積的 KV Cache 量化成 3-bit 或 4-bit 的 codebook 索引。Decode 注意力用的是一個 fused 兩遍 Flash Attention Metal kernel,直接從 packed 索引讀取——不需要反量化,不需要 fp16 中間張量。

      這個設計太聰明了,Prefill 不碰你的精度,decode 階段才壓縮,而且 kernel 直接操作壓縮后的數據,不走解壓再算的老路。

      實測大海撈針(Qwen3.5-35B-A3B,3-bit TurboQuant):

      上下文長度

      Baseline

      TurboQuant

      KV 內存節省

      32K

      735MB → 195MB(省 73%)

      64K

      1407MB → 327MB(省 77%)

      128K

      2749MB → 589MB(省 79%)

      128K 上下文,KV Cache 從 2.7GB 壓到 589MB,質量零損失。

      對于 Mac 用戶來說,這意味著你的機器一下子能裝下更長的上下文了。

      速度方面也很穩:

      模型

      Prefill 速度

      Decode 速度

      Qwen3.5-35B-A3B

      fp16 的 95%

      fp16 的 87%

      Qwen3.5-27B

      fp16 的 97%

      fp16 的 95%

      用起來也簡單——Admin UI → 模型設置 → 實驗功能 → 打開 TurboQuant KV Cache 開關,完事。

      # 安裝 oMLX
      brew tap jundot/omlx https://github.com/jundot/omlx
      brew install omlx


      # 啟動服務
      brew services start omlx

      順便提一句,這個版本還帶了 **oQ+**——在 oQ 的混合精度量化基礎上加了 GPTQ 權重優化。對 MoE 模型做了批處理算法加速,Qwen3.5-35B-A3B(256 experts × 40 layers)6 分鐘搞定,比順序處理快 15 倍。

      mlx-vlm:Metal Kernel 正在逼近全精度

      mlx-vlm 的作者 Blaizzy 在 PR [1] 里提交了一套完整的 TurboQuant Metal kernel 實現。

      這個 PR 一共提了 5 個 commit,逐步構建了完整的 TurboQuant 推理鏈路:

      基礎 kernel:

      • _mse_score_kernel—— MSE 評分

      • _pack_lowbit_kernel/_unpack_lowbit_kernel—— 低位打包/解包

      • _qjl_score_kernel—— QJL 1-bit 殘差糾偏

      • _prod_score_kernel—— 內積計算

      多頭優化 kernel:

      • _prod_score_multi_kernel—— 多頭批處理

      • _mse_weighted_rot_multi_kernel—— 加權旋轉多頭處理

      • _prod_score_repeat_kernel—— 重復模式優化

      4-bit PolarQuant 路徑:

      • _polar_prod_score_kernel—— 極坐標內積

      • _polar_turbo_score_repeat_kernel—— 極坐標重復模式

      同時scaled_dot_product_attention函數也做了適配,針對單 query 輸入走 TurboQuant 快速解碼路徑。

      從已知數據看,MLX TurboQuant kernel 的解碼速度已經追到全精度的 **70-85%**,還在繼續優化。這個 PR 合進去之后,所有用 mlx-vlm 的項目都能直接受益。

      llama.cpp:Issue 已開,社區在推

      llama.cpp 這邊,Issue [2] 已經有人開了 feature request。

      更值得關注的是,開發者 @mudler 已經在動手了——他 fork 了一個 feat/turbo-quant 分支[3],目前已經能編譯和啟動,正在評估效果。

      llama.cpp 一旦正式支持 TurboQuant,影響面是最大的。

      因為 llama.cpp 是目前本地部署生態的基石——Ollama、LM Studio、GPT4All 等等一大堆上層應用都依賴它。

      llama.cpp 支持了,意味著整個本地部署生態都支持了。

      vLLM:方案最詳細,等 PR

      vLLM 這邊開的 Issue [4] 信息量最大,直接給出了一份 6 步集成方案:

      1. 擴展 Cache 配置—— 在CacheDType里加"turboquant"

      2. 創建 TurboQuantConfig 類—— 用@register_quantization_config裝飾器

      3. 實現 KV Cache Method—— 繼承BaseKVCacheMethod,注冊 codebook 參數

      4. 更新量化檢測—— 讓is_quantized_kv_cache()識別 TurboQuant

      5. 實現 CUDA/Triton Kernel—— 編碼 kernel(量化存儲)+ 解碼 kernel(注意力計算前還原)

      6. 內存管理更新—— 適配 codebook 額外開銷和可變壓縮率

      這個 Issue 寫得像一份小型技術設計文檔,給后來接手的開發者鋪好了路。

      對于跑云端推理的場景,vLLM + TurboQuant 的組合會非常有沖擊力——4-5 倍 KV Cache 壓縮,意味著同樣的 H100 能撐更多并發、更長上下文。

      2026 年的本地 AI 體驗,會因為 TurboQuant 而躍遷一個檔次。我很期待。

      .cpp

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個 ,謝謝你看我的文章,我們下篇再見!

      參考資料

      PR : https://github.com/Blaizzy/mlx-vlm/pull/858

      Issue : https://github.com/ggml-org/llama.cpp/issues/20977

      feat/turbo-quant 分支: https://github.com/mudler/llama.cpp/tree/feat/turbo-quant

      Issue : https://github.com/vllm-project/vllm/issues/38171

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      糖尿病一口番茄不能嘗?再次強調:不想得糖尿病腎病,遠離這6物

      糖尿病一口番茄不能嘗?再次強調:不想得糖尿病腎病,遠離這6物

      健康之光
      2026-05-11 16:35:09
      我60歲了絕經已經6年,被閨蜜拉著跟67歲退休醫生去云南玩8天

      我60歲了絕經已經6年,被閨蜜拉著跟67歲退休醫生去云南玩8天

      小虎新車推薦員
      2026-05-08 19:40:44
      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      大象新聞
      2026-05-12 22:46:09
      申花簽下馬萊加三年長約,鋒線補強球迷期待新賽季

      申花簽下馬萊加三年長約,鋒線補強球迷期待新賽季

      漫川舟船
      2026-05-13 00:16:35
      入住兩年,發現打再多柜子,都不如一個800庫好用,讓雜物全消失

      入住兩年,發現打再多柜子,都不如一個800庫好用,讓雜物全消失

      室內設計師有料兒
      2026-05-11 09:30:15
      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能再向中國讓步

      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能再向中國讓步

      觸摸史跡
      2026-05-13 01:59:17
      褲子上這兩根繩,一定還有它存在的道理!

      褲子上這兩根繩,一定還有它存在的道理!

      新住家居
      2026-05-12 06:06:10
      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      做一個合格的吃瓜群眾
      2026-05-12 15:10:23
      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術都有問題

      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術都有問題

      風過鄉
      2026-05-12 20:36:06
      南京一學區房小區24小時狂增250套!一學區房5天大降70萬元!

      南京一學區房小區24小時狂增250套!一學區房5天大降70萬元!

      科學發掘
      2026-05-13 00:01:50
      季后賽被橫掃后就退役!湖人離隊第一人!三年“躺賺”3300萬美元

      季后賽被橫掃后就退役!湖人離隊第一人!三年“躺賺”3300萬美元

      鳴哥說體育
      2026-05-12 18:44:49
      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      辣媒專欄記錄
      2026-05-11 08:21:59
      卡塞米羅驚人評價:貝爾比C羅更全面,梅西是防守者的噩夢

      卡塞米羅驚人評價:貝爾比C羅更全面,梅西是防守者的噩夢

      星耀國際足壇
      2026-05-13 00:14:08
      太神奇了!場場三分命中率五成以上,苦熬七年,終于能拿億元合同

      太神奇了!場場三分命中率五成以上,苦熬七年,終于能拿億元合同

      球毛鬼胎
      2026-05-12 21:38:02
      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      燈錦年
      2026-05-10 19:22:52
      以軍被炸上天,給全世界教訓:大意輕敵,再精銳也能輸得一塌糊涂

      以軍被炸上天,給全世界教訓:大意輕敵,再精銳也能輸得一塌糊涂

      愛吃醋的貓咪
      2026-05-10 22:06:14
      2026最火的6部韓劇,每部都太適合熬夜追了

      2026最火的6部韓劇,每部都太適合熬夜追了

      小Q侃電影
      2026-05-12 22:20:48
      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      南方都市報
      2026-05-12 08:48:40
      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      生活新鮮市
      2026-05-13 02:38:57
      2026-05-13 04:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      數碼
      親子
      藝術
      公開課
      軍事航空

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      親子要聞

      夏天建議:把孩子的空調服換成它!

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美老熟妇欲乱高清视频| 国产情侣激情在线对白| 乱码精品一区二区三区| 精品国产乱码一区二| 国产成人高清亚洲一区久久| 亚洲av无码片在线播放| 91偷自国产一区二区三区| 青久草视频| 日本熟女一区二区三区视频| 尤物成AV人片在线观看| 欧美黑人大战白嫩在线| 超碰人人妻| 国产午夜精品鲁丝片| WWW夜片内射视频在观看视频| 国产精品久久久久久久久免费观看| 国产熟女掹操| 国产精品免费大片| 攵女乱爱全视频| 亚洲中文字幕日产无码成人片| 老色鬼久久亚洲AV综合| 熟女视频在线观看| 国产AV影片麻豆精品传媒| 亚洲AV午夜成人无码电影| 99久热只有精品视频| 美女无遮挡免费视频网站| 丁香狠狠色婷婷久久综合| 亚洲国产精彩中文乱码av| 少妇把腿扒开让我添| 日韩人妻系列无码专区| 99热这里只有精品6免费| 国产黑人在线| 无码精品人妻一区二区三区98 | 免费看91的网站| 色噜噜国产精品视频一区二区| 亚洲精品97久久中文| 欧洲亚洲AV| 久久国产乱子伦免费精品无码| 四虎永久精品免费视频| 亚洲精品久久久久久不卡精品小说| 国产乱色国产精品免费视频| 日韩综合|