<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      智譜首秀工程實戰經驗!Coding Agent日均數億次調用,GLM-5把長上下文推理的底層問題全逼出來了

      0
      分享至


      作者 | 智譜團隊

      編者按:

      今年 2 月,智譜 GLM Coding Plan 上線后,曾一度“推出即售罄”。智譜隨后同步升級 GLM Coding Plan,主打從 Vibe Coding 走向 Agentic Engineering。有趣的是,近期一批海外開發者正試圖涌入中國平臺來搶購 GLM Coding Plan。

      隨著用戶量和調用量快速上漲,Coding Agent 開始成為大模型最真實、最殘酷的壓力測試場。一些過去在普通聊天場景里幾乎不會暴露的問題,開始在高并發、長上下文、復雜工具調用中集中出現。這也是進入 Coding Agent 時代后,推理優化面臨的新問題。

      “今年是 infra 的決勝年。”如果說過去一年,大模型競爭的焦點仍然集中在“誰的模型更強”,那么今年開始,真正的勝負手正在轉向“誰的基礎設施更能扛”。

      4 月 30 日凌晨,智譜發布技術博客《Scaling Pain:超大規模 Coding Agent 推理實踐》,首次系統披露 GLM-5 系列模型在超大規模 Coding Agent 調用場景下的底層推理技術突破,包括兩個關鍵 Bug 的定位及修復、一項性能優化創新、以及一個意外的監控機制突破。

      此外,智譜團隊還將過去半年積累下來的推理工程實踐經驗貢獻回 SGLang 開源社區。這意味著,相關經驗也可能對更多模型后續的推理優化、吞吐放量和 Agent 場景穩定性帶來幫助。

      下面是智譜團隊的具體報告分享,完整技術 blog 鏈接如下:https://z.ai/blog/scaling-pain

      1 Scaling Pain:超大規模 Coding Agent 推理實踐

      對 Scaling Law 的信仰不僅驅動著我們在模型參數與數據規模上不斷突破,也同樣在不斷逼近 Infra 工程的極限,這一過程伴隨著不可避免的陣痛,我們稱之為“Scaling Pain”。

      隨著大模型應用從簡單對話全面轉向更復雜的、更長程的 Coding Agent 任務,我們的推理基礎設施迎來了前所未有的壓力,每天承受著數億次 Coding Agent 調用。過去幾周,部分用戶在使用 GLM-5 系列模型執行復雜 Coding Agent 任務時,遭遇了多種異常:亂碼、復讀,以及偶現的生僻字。這些問題在標準推理環境下是不存在的,只在高并發、長上下文的 Coding Agent 場景下才會觸發,很難穩定復現。

      我們經過數周的推演、排查與壓測,最終定位并修復了幾個相互獨立的底層競態 Bug,并對其中所反映的系統瓶頸進行了針對性優化,顯著提高了推理系統的穩定性和效率。

      我們將在這段探索中收獲的經驗與教訓與大家分享,一起克服 Coding Agent 推理的 Scaling Pain。

      2 從線下復現到異常識別

      自 3 月起,我們在 GLM-5 的線上監控和用戶反饋中觀察到三類異常現象:亂碼(garbled output)復讀(repetition),以及生僻字(rare character)。這些現象在表面上與長上下文場景下常見的“降智”相似,但由于我們并沒有上線任何降低模型精度的優化,一個更關鍵的問題是:異常究竟源于模型本身,還是源于推理鏈路?如果源于模型,異常會表現為針對特定輸入的穩定、可重復行為;反之,若異常與系統壓力或運行時狀態相關,則更可能指向推理基礎設施中的鏈路或狀態管理問題。

      排查初期,我們先對用戶反饋的 bad cases 做本地回放,并將同一批請求重復推理數百次,但始終未能復現異常,說明大概率不是模型本身的問題。為進一步模擬線上環境的壓力,我們對線上日志做脫敏處理,并盡可能保留原始并發分布與請求時序,在本地進行全量回放。起初仍未復現異常,直到進一步調整 PD 分離比例并持續提高系統負載,模擬高峰期的 Prefill 堆積和 Decode 側 KV Cache 壓力后,才在約每萬次請求中穩定復現 3-5 次異常。這種“與請求內容無關、與系統壓力相關”的特征,說明問題可能來自高負載下的推理狀態管理。與此同時,線下復現的異常頻率仍低于線上反饋的頻率,說明現有檢測方法可能存在漏檢,或仍有部分觸發場景尚未覆蓋。

      如何可靠識別異常輸出成為了新的挑戰。三類異常中,復讀相對容易檢測,而亂碼與生僻字比較棘手。我們嘗試過正則表達式、字符集匹配等啟發式方法,也嘗試過基于模型判別的方式,但前者存在明顯的漏判與誤傷,后者則難以滿足大規模消融實驗的效率要求。上述限制使異常檢測本身成為定位流程中的一個瓶頸。


      圖 1:投機采樣指標可以作為異常檢測的重要參考

      在反復分析推理日志后,我們發現了一個意想不到的切入點:投機采樣(Speculative Decoding)指標可以作為異常檢測的重要參考。投機采樣原本是一個性能優化技術,先由草稿模型生成候選 token,再由目標模型校驗并決定是否接受,從而在不改變最終輸出分布的前提下提升 decode 效率。如圖 1 所示,我們觀察到,兩個指標(spec_accept_length:目標模型連續接受的 draft token 前綴長度;spec_accept_rate:draft token 被接受的比例)在異常發生時呈現出穩定模式:

      • 亂碼和生僻字:通常伴隨極低的 spec_accept_length,即草稿模型生成的候選 token 幾乎全部被目標模型拒絕,表明目標模型所看到的 KV Cache 狀態與草稿模型預期之間存在顯著偏差。

      • 復讀:通常伴隨偏高的 spec_accept_rate,表明損壞的 KV Cache 可能使注意力模式退化,并將生成過程推向高置信度的重復循環。

      基于上述觀察,我們進一步實現了一套在線異常監控策略:當 spec_accept_length 持續低于 1.4 且生成長度已超過 128 token,或 spec_accept_rate 超過 0.96 時,系統主動中止當前生成,并將請求交由負載均衡器重試。該策略使投機采樣從單純的性能優化技術,拓展為輸出質量的實時監控信號,成為后續消融實驗中的關鍵工具。

      3 BugFix:PD 分離架構下的 KV Cache 競態

      在觀察到異常輸出與并發壓力具有明顯相關性后,我們進一步分析其原因。通過對請求生命周期以及推理引擎中 PD 分離執行時序的分析,我們發現該問題源于請求生命周期與 KV Cache 回收與復用時序之間的不一致,從而引發的 KV Cache 復用沖突。

      1. 原因分析:異步 Abort 引發的 KV Cache 復用競態

      為限制尾延遲,我們在推理引擎中引入了基于超時的請求終止機制:當 Prefill 階段未在規定時間內完成時,Decode 側會對請求執行 Abort,并回收其占用的 KV Cache 資源。然而,該 Abort 信號未被正確傳播至 Prefill 側,同時 Decode 側也缺乏判斷 KV Cache 是否可安全回收與復用的充分信息。因此,在 Decode Abort 并將對應 KV Cache 空間分配給新請求之后,先前已發起的 RDMA 寫入以及正在執行的 Prefill 計算仍持續執行,未被同步取消。


      圖 2:PD 分離場景下 KV Cache 競態示意圖

      圖 2 中展示了在 PD 分離架構下,兩個請求在 Prefill 與 Decode 之間交互的時序關系,以及由此引發的 KV Cache 競態。

      在初始階段,Req1 被發送至 Prefill-1(P1)和 Decode(D)。由于調度或排隊等原因,Req1 在 P1 側經歷了一段等待后才開始執行 Prefill Forward。與此同時,Decode 側在一段時間內未收到對應的 KV Cache 數據,觸發超時機制,并對 Req1 執行 Abort。

      隨后,Decode 側回收 Req1 占用的 KV Cache 槽位,但沒有正確通知 P1。緊接著,新請求 Req2 到達,并被分配至 Prefill-2(P2)和 Decode。由于內存復用策略,Req2 被分配到與 Req1 相同的 KV Cache 地址。P2 開始執行 Prefill Forward 并進行 KV Transfer,并在較短時間內完成,使 Decode 側進入生成階段。

      與此同時,P1 側針對 Req1 發起的 KV Cache 寫入仍在繼續,其數據會寫入已被 Req2 復用的顯存區域,從而覆蓋 Req2 的部分 KV Cache。最終,Req2 在 Decode 階段讀取到被覆蓋的數據,導致生成結果異常。

      2. 修復方案:KV Cache 釋放的時序一致性保證

      為消除上述競態,我們在推理引擎中引入了更嚴格的時序約束,在請求終止與 KV Cache 寫入完成之間建立顯式同步關系。

      具體而言,Decode 在觸發 Abort 后,會向 Prefill 側發送通知。Prefill 僅在以下條件滿足時返回“可釋放”信號:相關 RDMA 寫入尚未開始,或所有已提交寫入均已完成。Decode 僅在收到該確認后,才允許回收并復用對應的 KV Cache 槽位。該機制確保 KV 寫入不會跨越顯存復用邊界,從而避免跨請求的 KV Cache 覆蓋。

      修復效果:該修復上線后,異常輸出的發生率由約萬分之十幾下降至萬分之三以下。結果表明,在 PD 分離架構中,需要對跨節點的數據傳輸與顯存復用建立明確的一致性約束,以避免類似問題。

      4 BugFix: HiCache 加載時序缺失

      Coding Agent 場景顯著提高了輸入長度(平均超過 70K tokens),同時伴隨較高的前綴復用率。這類負載使 HiCache(多級 KV Cache)成為線上服務中的關鍵優化手段。然而,在 KV Cache 換入與計算重疊執行的情況下,當前實現未能保證數據在使用前已完成加載,導致可能出現未就緒 KV Cache 被訪問的情況。

      1. 原因分析:流水線同步缺失導致的 read-before-ready

      通過對 HiCache 執行時序分析,我們將問題定位在 DSA HiCache 的緩存讀取路徑上。系統會從 CPU 內存異步換入(swap-in)歷史前綴緩存,并通過 Load Stream 與 Forward Stream 的重疊執行來提高吞吐。

      如圖 3(a) 所示,Load Stream 負責加載 KV Cache 與 Indexer Cache,而 Forward Stream 依次執行 Index 計算與后續的 Sparse Attention。理論上,Forward Stream 中的 Indexer 計算應在對應的 Indexer Cache 完成加載后才能啟動。然而,在原始實現中,該依賴未被顯式表達。

      具體而言,Indexer 算子在啟動時未對 Load Indexer Cache 的完成建立同步約束(圖 3 中紅色虛線區域)。因此,Forward Stream 可能先于 Load Stream 完成數據加載而開始執行,從而出現 Read-before-Ready 的訪問模式,即在數據尚未完成加載時即被讀取。

      該問題會導致 Index 計算基于不完整或未初始化的數據執行,進而影響后續 Sparse Attention 的計算結果,并最終反映為輸出異常。


      圖 3:HiCache 讀取流水線時序異常與修復示意圖

      2. 修復方案:重構算子流水線的原子性

      為解決上述問題,我們對 HiCache 的讀取流水線進行了修改(如圖 3(b) 所示),在數據加載與計算之間引入顯式的同步約束:

      • 顯式同步約束:在 Indexer 算子啟動前引入與 Load Stream 的同步點,確保對應層級的 Indexer Cache 已完成加載。Forward Stream 僅在數據就緒后才啟動計算,從而避免 read-before-ready 的訪問。

      該修復上線后,在相同負載條件下,由執行時序不一致引起的異常完全消失,系統行為趨于穩定。該修復已通過Pull Request提交至 SGLang 社區。

      5 優化:KV Cache 分層存儲 LayerSplit

      上述兩個競態問題揭示了一個共同的系統瓶頸:在長上下文的 Coding Agent Serving 場景中,Prefill 階段主導了系統性能。

      為了控制 Prefill 排隊帶來的 TTFT,我們引入了超時 Abort;為了緩解 Prefill 側 KV Cache 容量壓力,我們引入了 HiCache。在修復這些狀態一致性問題后,我們進一步回到瓶頸本身:如何提升 Prefill 吞吐、降低 Prefill 側 KV Cache 顯存壓力。為此,我們設計并實現了 KV Cache 分層存儲方案LayerSplit

      Coding Agent 負載通常呈現出上下文長度較長、Prefix Cache 命中率較高的特征。在這一場景下,Prefill 階段往往成為系統的主要性能瓶頸,因此 Context Parallel(CP)成為線上 Prefill 節點的主要并行策略。然而,現有的 SGLang 開源實現存在 KV Cache 冗余存儲的問題,導致有限的 KV Cache 容量成為 GPU 計算資源利用率的限制因素。


      圖 4:LayerSplit、KV Cache 分層存儲方案

      針對這一問題,我們設計并實現了一種 KV Cache 分層存儲方案(LayerSplit)。在該方案中,每張 GPU 不再保存全部層的 KV Cache,而是僅持有部分層的 KV Cache(如圖 4(a) 所示),從而顯著降低單卡的顯存占用。

      在計算過程中,不同 CP rank 按照圖 4(b) 所示的方式協同完成 Prefill:具體而言,持有某一層 KV Cache 的 rank 會在執行 Attention 計算前,將該層 Cache 廣播給其他相關 rank。為降低通信開銷,我們進一步設計了 KV Cache 廣播與 indexer 計算的重疊機制,使二者在時間上相互掩蓋。最終,整個流程中僅引入了 Indexer Cache 廣播的額外開銷,其規模約為 KV Cache 的 1/8,因此整體通信成本較低,對性能影響可以忽略。


      圖 5:GLM-5.1 + LayerSplit 在不同長度下的吞吐提升

      圖 5 展示了在 Cache 命中率達到 90% 的條件下,該優化在請求長度從 40k 到 120k 區間內帶來的性能提升。實驗結果表明,系統吞吐量提升幅度在 10% 至 132% 之間,且隨著上下文長度的增加,收益更加顯著。整體來看,該優化顯著提升了系統在 Coding Agent 場景下的處理能力。

      6 總結

      當智能真正進入高并發、長上下文的 Coding Agent 場景后,推理基礎設施的挑戰已經不只是吞吐、延遲和可用性,維護它的輸出質量變得至關重要。每一次對 Scaling Law 的追求,都必須有同等強度的系統工程作為支撐。我們分享這些經驗,希望幫助社區少走一些彎路,共同打磨出能夠承載 AGI 未來的推理基礎設施。

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大輪換也不用他!24歲后腰在曼城時日無多 致命缺陷難成大器

      大輪換也不用他!24歲后腰在曼城時日無多 致命缺陷難成大器

      雪狼侃體育
      2026-05-14 17:09:30
      利潤很嚇人但很冷門的生意!越是窮的時候越要嘗試野路子~

      利潤很嚇人但很冷門的生意!越是窮的時候越要嘗試野路子~

      另子維愛讀史
      2026-01-13 21:51:51
      國宴上雷軍與最強對手馬斯克自拍合影,搞怪表情引全網熱議……

      國宴上雷軍與最強對手馬斯克自拍合影,搞怪表情引全網熱議……

      柴狗夫斯基
      2026-05-14 20:22:30
      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      “4只皮皮蝦1035元”當事人否認想吃白食,刪除評論;隔壁海鮮店發聲

      上觀新聞
      2026-05-09 09:58:08
      43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

      43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

      馬拉松跑步健身
      2026-05-04 19:32:40
      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      鐵錘簡科
      2026-05-14 13:24:35
      果然不出所料,中方不在臺灣問題上繞彎子了,特朗普開始準備退路

      果然不出所料,中方不在臺灣問題上繞彎子了,特朗普開始準備退路

      觀星賞月
      2026-05-14 21:12:09
      國民黨將領張振漢被俘后隨紅軍走完長征,妻子為尋夫不惜變賣家產

      國民黨將領張振漢被俘后隨紅軍走完長征,妻子為尋夫不惜變賣家產

      磊子講史
      2026-03-19 18:19:43
      U17亞洲杯大冷:越南3-2力壓韓國奪頭名!8強誕生,國足戰東道主

      U17亞洲杯大冷:越南3-2力壓韓國奪頭名!8強誕生,國足戰東道主

      侃球熊弟
      2026-05-14 04:12:36
      174億元!國內最大Token大單,首次開標

      174億元!國內最大Token大單,首次開標

      智東西
      2026-05-14 11:01:16
      王楚欽亮相活動被夸得不好意思,梁靖崑受表彰,張本智和目標世一

      王楚欽亮相活動被夸得不好意思,梁靖崑受表彰,張本智和目標世一

      郭夷包工頭
      2026-05-15 01:09:49
      65年彭德懷出發三線,幾次求見周總理未果,總理:君子之交淡如水

      65年彭德懷出發三線,幾次求見周總理未果,總理:君子之交淡如水

      幻夢人生
      2024-12-01 09:45:06
      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      莫地方
      2026-05-15 01:30:04
      名記:穆里尼奧“對抗全世界”的哲學與弗洛倫蒂諾完美契合

      名記:穆里尼奧“對抗全世界”的哲學與弗洛倫蒂諾完美契合

      懂球帝
      2026-05-15 01:13:28
      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      思思夜話
      2026-05-12 16:51:58
      小箖箖過生日,馬筱梅在北京曬兒子,保姆在公園直播,汪家變化大

      小箖箖過生日,馬筱梅在北京曬兒子,保姆在公園直播,汪家變化大

      科學發掘
      2026-05-15 00:40:07
      網友懷疑自助餐加了飽腹劑 記者調查揭開真相

      網友懷疑自助餐加了飽腹劑 記者調查揭開真相

      大唐
      2026-05-13 18:58:18
      湖人2年4000萬續約詹姆斯?隊記當場反問:季后賽最佳只值這個價?

      湖人2年4000萬續約詹姆斯?隊記當場反問:季后賽最佳只值這個價?

      野渡舟山人
      2026-05-15 00:08:23
      曝知名網紅董赤赤與公司鬧翻!賬戶欠50多萬,另起爐灶患嚴重抑郁

      曝知名網紅董赤赤與公司鬧翻!賬戶欠50多萬,另起爐灶患嚴重抑郁

      裕豐娛間說
      2026-05-14 13:35:10
      匈牙利新政府喊話中國,歐盟卡脖子要錢,寧德時代工廠還在建。

      匈牙利新政府喊話中國,歐盟卡脖子要錢,寧德時代工廠還在建。

      阿天愛旅行
      2026-05-15 00:09:02
      2026-05-15 03:43:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12377文章數 51887關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      藝術
      旅游
      本地
      數碼
      教育

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      旅游要聞

      日照五蓮:云海日出映青山

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av在线一区二区三区四区| 久久天天躁狠狠躁夜夜AV浪潮| 欧美亚韩国产| 国产香蕉精品视频一区二区三区| 真人啪啪高潮喷水呻吟无遮挡| 天天澡日日澡狠狠欧美老妇| 麻豆av字幕无码中文| 三上悠亚久久精品| 性欧美丰满熟妇xxxx性久久久| 久精品视在线观看视频99| 亚洲AV综合色区无码一区| 日韩成人社区| 蜜国产精品JK白丝AV网站 | 男女激情无遮挡免费视频| 男人的天堂在线无码观看视频| 五月激激激综合网色播| 精品无人区一区二区三区| 成人视频XXxx| 亚洲成人综合无码| 亭亭五月丁香| 中文乱码免费一区二区三区| 爱情岛亚洲论坛成人网站| 在线观看av网站永久| 久久久女人| 人妻无码| 亚洲欧美综合精品成人网站| 青川县| 一级片麻豆| 亚洲一区二区中文| 丰满人妻被猛烈进入中文字幕| 亚洲综合专区| 城中村快餐嫖老妇对白| 日韩内射美女片在线观看网站| 久久精品性无码一区二区爱爱| 日本欧美久久久久免费播放网| 亚州成人AV| 欧美乱子伦xxxx12| 国产成人av大片大片| 亚洲熟妇自偷自拍另欧美| 337P日本欧洲亚洲大胆精品555588| 99热这里只有是精品|