<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      解碼加速15倍!EdgeRazor助推大模型在PC/移動端“狂飆”

      0
      分享至



      近年來,大語言模型參數的持續膨脹,帶來了極高的顯存占用和算力需求,在 PC、手機和 IoT 等資源受限的端側設備上部署前沿大模型十分困難。因此大語言模型輕量化的研究勢在必行,量化(Quantization)成為主流的輕量化方案。然而,量化端側部署目前受制于 “不可能三角”:后訓練量化(PTQ)在極低比特下精度崩塌;量化感知訓練(QAT)算力成本極高;而現有的量化感知蒸餾(QAD)又缺乏靈活性。

      由南京大學機器學習與數據挖掘研究所(LAMDA)和微軟 AI 聯合推出的開源工具庫 EdgeRazor,直擊端側部署的核心痛點,一舉打破了極低比特大語言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸餾(MPQAD),不僅保障了更低成本的訓練,更支持了靈活的訓練數據配比,成功構建出一個開源、即插即用的輕量化框架。論文通訊作者為南京大學 LAMDA 團隊張紹群助理教授。



      • 論文標題:EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
      • 論文地址:https://arxiv.org/abs/2605.04062
      • GitHub 鏈接:https://github.com/zhangsq-nju/EdgeRazor
      • Hugging Face 鏈接:https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit
      • Playground 鏈接:https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround

      端側破局:兼得 SOTA 與 15 倍加速



      圖 1:EdgeRazor 和基線算法在基礎型、指令微調型和多模態大模型上的性能表現

      全面評測,性能領跑:EdgeRazor 在基礎型(MobileLLM-350M)、指令微調型(Qwen3-0.6B/1.7B)和多模態(Qwen2.5-Omni-7B)大模型上開展了系統的性能評測。評測范圍包括常識推理、指令遵循、數學推理、代碼生成以及視頻理解類型的 16 個下游任務。如圖 1 所示,面對當前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各類模型架構和比特位寬下均保持性能的領先,確立了全新的 SOTA 性能基準。



      圖 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手機端部署效果演示

      端側部署,絲滑落地:為了展示真實受限資源下的工程落地,EdgeRazor 提供了適配于端側部署的 DEMO。如圖 2 所示,在 PC 端和手機端的 CPU 部署場景下,EdgeRazor 釋放出極高的推理潛能。相較于 16-bit 基座模型,其解碼速度分別實現了 16× 和 12× 的飛躍,整體端到端響應速度也獲得了 10× 和 11× 的大幅提升,真正賦予了本地輕量化模型絲滑、“秒回” 的體驗。



      圖 3:EdgeRazor 和基線算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表現

      打破魔咒,拒絕塌陷:在極低比特位寬下,量化模型的復雜推理能力往往最先遭遇災難性衰退,但 EdgeRazor 打破了這一魔咒。如圖 3 所示,在 GSM8K(數學推理)和 HumanEval(代碼生成)復雜任務上,現有主流 2-bit 方法普遍出現性能的斷崖式下跌,甚至面臨徹底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 這種極低比特預算下,依然展現出較好的穩健性,其任務表現顯著優于同類 2-bit 方法。



      圖 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表現和訓練開銷

      十倍輕訓,降本增效:高質量的低比特模型往往依賴龐大的訓練開銷,而 EdgeRazor 徹底打破了這一現狀。如圖 4 所示,在 MobileLLM-350M 上,EdgeRazor 不僅在全比特位寬下超越了性能最強的 QAT 基線 ParetoQ,更在訓練效率上實現了大幅優化。其訓練所需的 tokens 數量縮減了 75%–90%(最低僅需 3.1B,而基線高達 30B)。



      圖 5:EdgeRazor 和基線算法在 Qwen3-0.6B 模型下的量化比例和壓縮比

      全員量化,刷新極限:傳統的量化方法往往因規避精度崩潰而對嵌入層和語言模型頭 “手下留情”。如圖 5 所示,這導致模型整體的真實量化參數覆蓋率僅 73.89%,然而 EdgeRazor 突破了這一妥協,實現了 99.99% 的極高量化參數覆蓋率,并且在 1.58-bit 極低比特下達到了突破性的 7.03× 壓縮比,遠超傳統方法 2.94× 的瓶頸。



      圖 6:EdgeRazor 在 llama.cpp 推理框架上測試 Qwen3-0.6B 的效率表現

      EdgeRazor 選取 Qwen3-0.6B 為基座模型,依托開源推理框架 llama.cpp,在純 CPU 算力環境下(Apple M4 Pro)進行推理效率評測。

      • 百兆體積,輕量部署:如圖 6 所示,相較于 16-bit 基座模型,1.58-bit EdgeRazor 量化模型將磁盤占用壓縮至 1/5.8(僅約 190MB),峰值運行內存降至 1/2.9。百兆級別的輕量資源占用,掃清了大模型向智能手機、IoT 等內存受限設備遷移的物理障礙。
      • 十五倍速,解碼狂飆:如圖 6 所示,1.58-bit EdgeRazor 量化模型的預填充吞吐量不僅達到了基座模型的 2.11×,在對用戶體驗起決定性作用的自回歸解碼環境,速度更是實現了 15.16× 的爆炸級提升。這標志著端側大模型邁入 “秒回” 級別的全新階段。

      即插即用:一鍵訓練輕量化大模型



      圖 7:EdgeRazor 用于輕量化模型訓練的流程圖

      EdgeRazor 不僅在性能與效率上追求極致,在工程易用性上也同樣力求開發者友好。如圖 7 所示,EdgeRazor 被設計為一個高度模塊化的開源工具庫。開發者無需精通底層的復雜量化感知蒸餾邏輯,通過統一的配置文件(配置量化比例、目標比特數和蒸餾損失等內容),將龐大的 16-bit 模型訓練為 1.58-bit 輕量化模型。其核心使用優勢包括:

      • 代碼解耦,即插即用:零侵入式設計。只需寥寥數行代碼配置,EdgeRazor 就能無縫并入開發者現有的全精度大模型訓練流水線,完全不需要重構底層的訓練代碼。
      • 極簡配置,一鍵啟動:EdgeRazor 通過三個輸入(16-bit 模型、自由配比的數據和配置文件),即可輸出各種低比特模型(例如,1.58-bit 模型)。
      • 混合數據,配比自由:相比于傳統的 QAD 方法只支持蒸餾 16-bit 模型的數據進行訓練,EdgeRazor 還支持人類標注數據和高質量模型合成數據,訓練數據配比自由。
      • 繁雜底層,自動接管:框架內部接管了繁雜的底層操作。從加載各種格式的配置,利用量化選擇器為特定層注入量化實現(QAT 模塊),到同步計算各種蒸餾損失(KD 模塊),全流程自動化閉環。
      • 算力降維,單機可訓:告別傳統 QAT 方法對龐大算力的依賴(例如,ParetoQ 使用了 16 張顯卡,消耗了 30B tokens)。EdgeRazor 在常規單機多卡環境下即可完成訓練(相同模型只使用了 8 張顯卡,消耗了 3.1B tokens)。

      核心架構:三大模塊攻克極低比特



      圖 8:EdgeRazor 框架的核心模塊

      開發者友好的易用性背后,是核心算法的支撐。如圖 8 所示,EdgeRazor 采用混合精度量化感知蒸餾范式來壓縮各類型的大模型,其核心創新主要由以下三個模塊構成:

      • 混合精度的結構量化(Structural Quantization with Mixed Precision, SQMP):打破傳統量化統一位寬的設定。SQMP 支持將 4-bit 和 1.58-bit 在輸入通道維度進行細粒度的靈活混合(例如實現 1.88-bit 或 2.79-bit 的平均位寬)。這不僅能精準契合實際硬件的資源預算,交錯的 4-bit 高精度行還能作為 “緩沖區”,有效吸收激活異常值帶來的量化誤差。
      • 層自適應的特征蒸餾(Layer-Adaptive Feature Distillation, LAFD):告別盲目的人工調參。LAFD 通過計算教師模型相鄰層的余弦相似度(表征結構變換程度),自適應地找出對特征轉換最關鍵的 Top-k 層進行重點特征蒸餾。從而將 “好鋼用在刀刃上”,不僅避免了盲目依賴人工經驗去啟發地選擇蒸餾層,還有效阻止了量化誤差在層間的放大。
      • 熵感知的 KL 散度(Entropy-Aware KL Divergence, EAKLD):擺脫了對教師模型生成數據的強依賴。EAKLD 純粹依靠教師模型輸出分布的熵來動態調節前向 KL 散度與反向 KL 散度的比例。這使得 EdgeRazor 能夠完美兼容人工標注數據和高質量模型合成數據,實現了訓練數據的配比自由。

      總結

      回歸到輕量化的初衷,EdgeRazor 想解決的并不是單純的 “跑個分”,而是一個更底層且務實的問題:如何通過一套統一的算法框架,讓各種架構、各種參數規模的大模型低成本地轉化為在資源受限環境(例如,手機和 PC 等端側設備)下可部署的低比特輕量化版本。其實現的開源工具庫打通了 “低成本量化”、“輕量化訓練” 與 “極低成本部署” 的 AI 全生態鏈路,為個人 AI 助理的普惠化與私密化提供有力的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      景甜難脫身?娛記稱富豪已走程序,業內猜測她湊不齊5000萬才鬧大

      景甜難脫身?娛記稱富豪已走程序,業內猜測她湊不齊5000萬才鬧大

      萌神木木
      2026-05-23 20:03:30
      衛健委已將左氧氟沙星列為重點監控藥物!提醒:服用千萬注意

      衛健委已將左氧氟沙星列為重點監控藥物!提醒:服用千萬注意

      健康科普365
      2026-05-25 22:15:03
      網購時要注意了,“旗艦店”和“官方店”一字之差,天壤地別!

      網購時要注意了,“旗艦店”和“官方店”一字之差,天壤地別!

      另子維愛讀史
      2026-05-25 07:55:09
      蕁麻,不要讀xún má,丟不起那個人!

      蕁麻,不要讀xún má,丟不起那個人!

      未央看點
      2026-05-19 08:54:23
      霍去病啊,這人,說白了就是老天爺臨時下凡一趟

      霍去病啊,這人,說白了就是老天爺臨時下凡一趟

      老達子
      2026-05-25 06:25:03
      一波未平一波又起,徐巧芯向王光慈開火,王光慈曝光重大醫囑

      一波未平一波又起,徐巧芯向王光慈開火,王光慈曝光重大醫囑

      DS北風
      2026-05-26 09:06:05
      王楚欽母親首次談兒媳標準!3個要求曝光后,網友集體沉默了

      王楚欽母親首次談兒媳標準!3個要求曝光后,網友集體沉默了

      橙星文娛
      2026-05-26 10:53:35
      哈登:其實我覺得我打得還不錯,下賽季百分百留在騎士

      哈登:其實我覺得我打得還不錯,下賽季百分百留在騎士

      懂球帝
      2026-05-26 14:40:05
      我在國安局工作20年,抓過很多間諜,但有一個讓我終身難忘

      我在國安局工作20年,抓過很多間諜,但有一個讓我終身難忘

      千秋文化
      2026-03-06 20:59:14
      國民黨態度大轉彎:之前還反對臺獨,轉身又說臺灣不是中國一部分

      國民黨態度大轉彎:之前還反對臺獨,轉身又說臺灣不是中國一部分

      解鎖世界風云
      2026-05-26 11:10:14
      以為上火,實際卻是癌癥信號!天熱出現這3種情況,別疏忽大意!

      以為上火,實際卻是癌癥信號!天熱出現這3種情況,別疏忽大意!

      芹姐說生活
      2026-05-26 16:17:11
      逼自己看了孫楊X易立競的采訪,我一人血書孫楊出一本《說話之道》...

      逼自己看了孫楊X易立競的采訪,我一人血書孫楊出一本《說話之道》...

      畢導
      2026-05-25 17:23:12
      半導體大佬集體減持后,杭州豪宅被搶瘋了!

      半導體大佬集體減持后,杭州豪宅被搶瘋了!

      櫻桃大房子
      2026-05-25 21:52:46
      4艘美國巨輪直奔中國,中俄千億管道項目擱淺,日本徹底陪跑

      4艘美國巨輪直奔中國,中俄千億管道項目擱淺,日本徹底陪跑

      雅兒電影解說
      2026-05-26 09:58:04
      *ST聞泰錄得4天3板

      *ST聞泰錄得4天3板

      證券時報
      2026-05-26 10:36:11
      后悔啊!一女子哭訴二婚遭遇“報應”,丈夫整日游手好閑,不著家

      后悔啊!一女子哭訴二婚遭遇“報應”,丈夫整日游手好閑,不著家

      火山詩話
      2026-05-26 10:16:57
      涉及多個職務,佛山市發布5月份人事任免

      涉及多個職務,佛山市發布5月份人事任免

      南方都市報
      2026-05-26 11:19:18
      怕王鶴棣涼得太慢嗎?經紀人也下場發文內涵!掉粉、反噬只是開始

      怕王鶴棣涼得太慢嗎?經紀人也下場發文內涵!掉粉、反噬只是開始

      小娛樂悠悠
      2026-05-26 08:56:12
      王晶沒說謊,58歲久居“日本農村”的鄭伊健,現狀印證了他的評價

      王晶沒說謊,58歲久居“日本農村”的鄭伊健,現狀印證了他的評價

      小蘭聊歷史
      2026-05-25 07:41:20
      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      八斗小先生
      2026-05-26 11:25:19
      2026-05-26 16:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13085文章數 142653關注度
      往期回顧 全部

      科技要聞

      今年秋季,麒麟芯片將首次落地"邏輯折疊"

      頭條要聞

      外媒稱伊朗愿意"將濃縮鈾移至中國" 中方回應

      頭條要聞

      外媒稱伊朗愿意"將濃縮鈾移至中國" 中方回應

      體育要聞

      上賽季差點降入英甲,下賽季要踢英超了

      娛樂要聞

      臺媒貼臉!S媽被問大S嗑藥當場沉默

      財經要聞

      中國鋁行業爆單 下一個“煤炭”大周期?

      汽車要聞

      涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

      態度原創

      數碼
      本地
      健康
      教育
      公開課

      數碼要聞

      消息稱AMD蘇姿豐布局Zen 7:臺積電A14工藝、力成FOPLP封裝

      本地新聞

      用云錦的方式,打開江蘇南京

      幾百塊一瓶的外泌體精華,涂臉上是“智商稅”嗎?

      教育要聞

      由內而外自我重構,一所高中名校的現代蛻變之路

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新中文字幕AV无码专区 | 亚洲日本va在线观看| 玩成熟老熟女视频| 免费国产高清在线精品一区| 精品国产亚欧无码久久久| 亚洲ⅴ欧洲第一的日产av| 九九热热久久这里只有精品| 中文字幕乱码中文字幕| 久久国产成人午夜av影院| 国产精品艾秋| 国产成人一区二区三区在线| 四虎成人永久在线精品免费 | www插插插无码免费视频网站| 丰满老熟女丝袜短裙| 国产制服丝袜无码视频| 国产人成无码视频在线1000| 国产初高中生在线视频| 国产精品三级一区二区| 日日噜噜夜夜久久亚洲一区二区| 亚洲熟女乱色综合亚洲| 产精品无码一区二区三区免费| 在线观看1024精品国产| 波多野结衣一级毛片| 国产午夜福利视频一区二区| 在线黄色av网址| 欧美精品在线观看视频| 国产亚洲av日韩精品熟女| 欧美肏屄网| 久久国产成人免费网站777| 香蕉在线精品一区二区| 日产精品高潮呻吟av久久| 天堂a?中文在线| 国产成人精选视频在线观看| 91中文字幕在线观看| 黑人欧美一级在线视频| 黑人av| 亚洲av不卡电影在线网址最新| 图片区小说区另类春色| 久久中文字幕av| 少妇高潮喷水在线观看| 欧美一级鲁丝片免费一区|