<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Mac 用戶本地跑大模型,這可能是目前最能打的方案

      0
      分享至

      關于本地部署和量化,我之前寫過不少:

      今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案

      它們仨是啥關系?

      先別被三個名字搞暈了

      如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關系你一眼就懂:

      層次

      PC 端類比

      Mac 端(這套)

      量化格式

      GGUF

      JANG

      推理引擎

      llama.cpp

      vMLX

      桌面應用

      Open WebUI

      MLX Studio

      簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。

      JANG:MLX 的量化救星

      先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"

      說白了,就是一種混合精度量化方案

      普通量化對所有參數一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數值),模型就廢了

      JANG 的聰明之處在于:對不同層給不同精度

      • Attention 層:保留 5~8 bit(不敢動)

      • MLP 層:壓到 2~4 bit(這里水分多,使勁壓)

      • 平均額外開銷:只多 0.3 bit

      效果有多猛?看這組數據——230B 參數的 MiniMax M2.5 為例:

      量化方式

      大小

      MMLU(200 題)

      JANG_2L(2bit 混合)82.5 GB74%

      MLX 4-bit

      119.8 GB

      26.5%

      MLX 3-bit

      93 GB

      24.5%

      MLX 2-bit

      68 GB

      25%

      MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。

      這差距也太離譜了


      更夸張的是 397B 參數的 Qwen3.5:

      • JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%

      • MLX 2-bit / 3-bit:NaN,直接寄

      • MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下

      397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。


      所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。

      vMLX:100K 上下文快 224 倍

      有了好的量化模型,還得有個快引擎

      vMLX 就是干這個的

      安裝極簡:

      pip install vmlx
      vmlx serve mlx-community/Qwen3-8B-4bit

      啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接


      vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:

      1. 前綴緩存:對話中重復的部分只算一次

      2. 分頁 KV 緩存:多個對話同時駐留,切換不驅逐

      3. KV 緩存量化:q4/q8 壓縮,節省 4~8 倍內存

      4. 持續批處理:最多 256 個并發序列

      5. 磁盤緩存:重啟后立即恢復,不用重新算

      五層疊加的結果就是,首個 Token 的響應速度碾壓同類:

      上下文長度

      vMLX

      其他引擎

      快多少

      2.5K

      0.05s

      0.49s

      9.7×

      10K

      0.08s

      6.12s

      76×

      100K

      0.65s

      131s

      224×

      100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。

      除了緩存,還有幾個值得一提的特性:

      • 推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%

      • Mamba / SSM 混合架構支持:Nemotron-H 這些奇葩架構只有 vMLX 能跑

      • 20+ 內置 Agent 工具:文件讀寫、代碼搜索、Shell 執行、Git 操作、網頁搜索——全部本地運行

      最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內置到本地引擎里的方案,不用額外配 MCP 服務器,模型直接就能讀文件、執行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。


      項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。

      MLX Studio:不碰命令行也能玩

      如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應用,永久免費。


      MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化

      該有的全有了:

      對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復。

      圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。

      模型管理:內置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉換器(支持 JANG 混合精度)、菜單欄快捷切換模型。

      API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。


      老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。

      官網:mlx.studio

      總結

      這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿

      • JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到

      • vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍

      • MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定

      三個項目全部 Apache 2.0 開源,全部免費。

      有 Mac 跑本地模型需求的朋友,真的值得試試。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      糖尿病一口番茄不能嘗?再次強調:不想得糖尿病腎病,遠離這6物

      糖尿病一口番茄不能嘗?再次強調:不想得糖尿病腎病,遠離這6物

      健康之光
      2026-05-11 16:35:09
      我60歲了絕經已經6年,被閨蜜拉著跟67歲退休醫生去云南玩8天

      我60歲了絕經已經6年,被閨蜜拉著跟67歲退休醫生去云南玩8天

      小虎新車推薦員
      2026-05-08 19:40:44
      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      大象新聞
      2026-05-12 22:46:09
      申花簽下馬萊加三年長約,鋒線補強球迷期待新賽季

      申花簽下馬萊加三年長約,鋒線補強球迷期待新賽季

      漫川舟船
      2026-05-13 00:16:35
      入住兩年,發現打再多柜子,都不如一個800庫好用,讓雜物全消失

      入住兩年,發現打再多柜子,都不如一個800庫好用,讓雜物全消失

      室內設計師有料兒
      2026-05-11 09:30:15
      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能再向中國讓步

      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能再向中國讓步

      觸摸史跡
      2026-05-13 01:59:17
      褲子上這兩根繩,一定還有它存在的道理!

      褲子上這兩根繩,一定還有它存在的道理!

      新住家居
      2026-05-12 06:06:10
      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      做一個合格的吃瓜群眾
      2026-05-12 15:10:23
      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術都有問題

      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術都有問題

      風過鄉
      2026-05-12 20:36:06
      南京一學區房小區24小時狂增250套!一學區房5天大降70萬元!

      南京一學區房小區24小時狂增250套!一學區房5天大降70萬元!

      科學發掘
      2026-05-13 00:01:50
      季后賽被橫掃后就退役!湖人離隊第一人!三年“躺賺”3300萬美元

      季后賽被橫掃后就退役!湖人離隊第一人!三年“躺賺”3300萬美元

      鳴哥說體育
      2026-05-12 18:44:49
      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      辣媒專欄記錄
      2026-05-11 08:21:59
      卡塞米羅驚人評價:貝爾比C羅更全面,梅西是防守者的噩夢

      卡塞米羅驚人評價:貝爾比C羅更全面,梅西是防守者的噩夢

      星耀國際足壇
      2026-05-13 00:14:08
      太神奇了!場場三分命中率五成以上,苦熬七年,終于能拿億元合同

      太神奇了!場場三分命中率五成以上,苦熬七年,終于能拿億元合同

      球毛鬼胎
      2026-05-12 21:38:02
      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      燈錦年
      2026-05-10 19:22:52
      以軍被炸上天,給全世界教訓:大意輕敵,再精銳也能輸得一塌糊涂

      以軍被炸上天,給全世界教訓:大意輕敵,再精銳也能輸得一塌糊涂

      愛吃醋的貓咪
      2026-05-10 22:06:14
      2026最火的6部韓劇,每部都太適合熬夜追了

      2026最火的6部韓劇,每部都太適合熬夜追了

      小Q侃電影
      2026-05-12 22:20:48
      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      南方都市報
      2026-05-12 08:48:40
      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      生活新鮮市
      2026-05-13 02:38:57
      2026-05-13 04:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      游戲
      本地
      數碼
      公開課
      軍事航空

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美午夜理伦三级在线观看| 久久久久久久AB| 久久综合九色综合欧洲98| 狠狠色丁婷婷综合久久| 国内少妇人妻偷人精品| 美女福利视频一区二区| 公交车上荫蒂添的好舒服的视频| 免费毛片网站在线观看| 国产国语对白一区二区三区| 国产精品区视频| 国产欧美在线观看不卡| 少妇的肉体aa片免费| 人妻丰满熟妇av无码区乱| 人人爽人人爽人人片av东京热| jjzz国产| 亚洲小说图片综合在线专区l| 亚洲AV毛片无码成人区httP| 一本色道久久综合亚州精品蜜桃| 国产94在线 | 亚洲| 国产美女在线精品亚洲二区| 免费一区二区无码东京热| 久久综合狠狠色综合伊人| 日日夜夜噜噜| 无码日韩一区二区| 免费中文字幕一级毛片| 91久久国产精品视频| 午夜在线网址| 丰满少妇人妻无码| 亚洲自偷自偷在线成人网站传媒| 亚洲欧美日韩二三区在线| 国产一区在线播放av| 99中文在线精品| 亚洲国产精品久久久久久久| 中文字幕av不卡电影网| 久久婷婷五月综合色99啪| 麻豆AV电影| 日韩精品免费在线视频| 尹人香蕉久久99天天拍| 谁有老熟女网站| 试看做受1分钟小视频| 在线观看热码亚洲av每日更新|