![]()
華為聯合新加坡國立大學和中國科學技術大學研究人員提出 QuantClaw。
這是一款面向 OpenClaw 的即插即用動態模型精度路由插件,基于大規模低精度量化實證研究,讓模型精度成為可動態分配的資源,實現服務質量不降反升、成本下降、延遲降低的三重收益。
![]()
項目主頁:https://sparkengineai.github.io/QuantClaw/
GitHub 倉庫:https://github.com/SparkEngineAI/QuantClaw-plugin
arXiv 論文:https://arxiv.org/abs/2604.22577
OpenClaw 很強大,但成本讓人頭疼
2026 年,OpenClaw 已經成長為最火爆的開源 AI Agent 框架之一。它不只是「聊天機器人」,而是能操控瀏覽器、執行 Shell 命令、讀寫文件、管理記憶的全功能數字助手。但真正用過 OpenClaw 的開發者和用戶都知道一個痛點:Token 消耗太猛了。
一個看似簡單的查詢,可累積消耗超 23 萬 Token,你付的錢不只是為了那個最終答案,而是在為整個 Agent 系統的「運行開銷」買單。更糟的是,目前這些系統通常以固定精度運行。無論任務是簡單查個資料,還是寫一段復雜代碼,模型都在全力輸出,導致不同任務復雜度與計算資源之間缺乏匹配機制。該策略同時帶來不必要的計算開銷、推理延遲增加以及整體成本上升。
破局思路:不是每個任務都需要「超算級」精度
量化(Quantization)是業界常用的降本手段。把模型的數值精度從 32 位浮點壓縮到 4 位甚至 2 位,能顯著減少內存占用和計算量。但問題是:量化對復雜 Agent 任務的影響到底有多大?所有任務都適合壓低精度嗎?目前仍缺乏系統性的研究來回答這一問題。
華為聯合新加坡國立大學、中國科學技術大學,對 OpenClaw 工作負載進行了系統性的量化研究,基于 ClawEval 評測集(release v0.0.0),覆蓋 24 類任務、104 個實例、6 個主流大模型(9B–744B),系統揭示了 OpenClaw 框架下 Agent 量化的核心規律:
(1)Scaling Effect:模型越大,量化容忍度越高
![]()
在 OpenClaw 量化評測結果上,研究團隊發現了一個清晰的模型規模和性能下降之間的關系:
- 小模型(<30B):量化后性能下降 3-5%。
- 中等模型(30B-70B):下降通常在 2% 以內。
- 大模型(200B+):下降不到 2%,部分模型(如 GLM-5、MiniMax-M2.5)量化后反而有輕微性能提升(+0.9% 到 +1.4%)。
實驗結果顯示,模型規模與量化誤差容忍度呈正相關,這可能源于更大參數量的模型擁有更高的表征冗余,從而削弱了量化噪聲的影響。
(2)量化對 Agent 的影響,顯著依賴任務類型
研究團隊對所有測試模型的結果取平均值并進行任務敏感度分析,根據敏感度將 OpenClaw 任務分為三類:高、中、低。
![]()
- 高精度敏感區(推薦 16bit/8bit):涉及代碼生成、安全關鍵決策和復雜操作工作流的任務對量化高度敏感。這些領域的共同特征是需要精確的邊界判斷,模型輸出的微小擾動都可能導致性質完全錯誤的行為,例如錯誤的工具調用、策略違規或代碼邏輯錯誤。
- 低精度友好區(推薦 4bit):知識檢索、分析類與問答類任務對量化具有較強容忍度,有的甚至還能小幅提升。這可能是因為量化充當了隱式正則化器的角色,從而促進更具泛化性的表示。
(3)如何實現得分、速度與成本的平衡?
![]()
真正決定是否應該對某個任務使用低精度,不能只看分數變化,必須把速度和成本一起納入考量。基于任務敏感性分析,研究團隊給出了兩種實用的優化視角:
- 得分 vs 速度(更快):在不犧牲質量的前提下降低推理時延,優先選擇速度收益大于分數邊際變化的任務。
- 得分 vs 成本(更便宜):在質量基本持平的情況下壓低推理成本,重點關注成本降低時仍能保持或提升質量的任務。
QuantClaw:開箱即用的精度調度引擎
基于以上發現,研究團隊推出了 QuantClaw,一個為 OpenClaw 設計的即插即用的任務路由量化插件。
![]()
(1)QuantClaw 的工作邏輯非常清晰:
- 任務識別:用戶發來請求,QuantClaw 首先判斷它屬于哪種任務類型。
- 精度路由:根據預設的「任務-精度敏感度檔案」,自動將請求分配給 4bit、8bit 或 16bit 的模型實例。
- 透明執行:用戶無感知,不用手動選擇精度,系統在后臺完成一切。
(2)QuantClaw 的架構設計兼顧了實用性和靈活性:
![]()
![]()
實測效果:省錢、提速、分數還漲了
研究團隊在 PinchBench 上進行端到端評估。結果表明,QuantClaw 在省錢提速的同時,任務完成質量反而更高。低敏感任務用低精度高效執行,高敏感任務保留高精度確保可靠,實現整體上更好的質量、成本和時延平衡。
(1)GLM-4.7-Flash(PinchBench v1.2.0):相比 BF16 基線,得分 +2.85,成本 -21.6%,延遲 -8.4%
![]()
(2)GLM-5(PinchBench v2.0.0):相比 FP8 基線,得分 +2.09,成本 -21.4%,延遲 -15.7%
![]()
展望
QuantClaw 不止是一個插件,更提供了一種將精度納入系統調度的實現路徑:把精度當作像算力、內存一樣的動態調度資源;輕任務跑低成本配置,重任務保留高精度。
當精度成為可動態調配的資源,Agent 系統才能真正從演示場景走向生產級應用。未來,個人 AI 助手不再是「單模型滿負荷跑」,而是多精度、多能力協同的智能系統。QuantClaw 正是這一方向的關鍵一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.