網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

為什么99%的AI Agent都在燒錢？

2026-04-21 07:37:36　來源: AI先鋒官

北京舉報

分享至

最近，關于 token 比人力貴的吐槽多了起來，有些公司發(fā)現(xiàn)，AI Agent 并不一定省錢。

就此，國外AI博主 Avi Chawla 拿 Claude 的真實數(shù)據(jù)算了筆賬，結(jié)果嚇人一跳。

一個30分鐘的編碼會話，92%的token走的都是緩存，直接干掉 81% 成本。

因為每次跟Agent對話，前面那些系統(tǒng)指令、工具定義、上下文，幾乎都會重復。

搞不懂的是，像公司文檔、產(chǎn)品資料這種不變的素材，為什么每次都去RAG？Agent為什么不去做緩存優(yōu)化？也難怪調(diào)用token 是在燒錢。

以下為Avi Chawla的博文——

《大語言模型中的提示詞緩存詳解》

一則關于 Claude如何實現(xiàn)92%緩存命中率的案例分析

AI 智能體每執(zhí)行一步操作，都會將完整對話歷史回傳給大語言模型。

這其中包含系統(tǒng)指令、工具定義，以及三輪對話之前已經(jīng)處理過的項目上下文。每一輪交互，所有內(nèi)容都會被重新讀取、重新計算、重新計費。

對于長期運行的智能體工作流而言，這類冗余計算，往往是整套 AI 架構(gòu)里成本最高的部分。

一段包含 20000 token 的系統(tǒng)提示詞，重復運行 50 輪，就會產(chǎn)生100 萬 token 的全額計費冗余計算，且不會產(chǎn)生任何新價值。該成本還會隨著用戶數(shù)量、對話場次不斷疊加。

解決辦法就是提示詞緩存。但想要用好這項技術，需要先理解底層運行原理。

靜態(tài)上下文與動態(tài)上下文

想要優(yōu)化提示詞，首先要區(qū)分內(nèi)容中可變與不可變的部分。

每一次智能體請求都包含兩個本質(zhì)不同的部分：

? 跨輪次完全不變的靜態(tài)前綴：系統(tǒng)指令、工具定義、項目上下文、行為規(guī)范。

? 隨輪次不斷新增的動態(tài)后綴：用戶消息、模型回復、工具返回結(jié)果、終端運行信息。

正是這種結(jié)構(gòu)劃分，讓提示詞緩存得以實現(xiàn)。平臺底層會存儲靜態(tài)前綴對應的模型計算狀態(tài)，后續(xù)所有包含相同前綴的請求，都可以直接跳過重復計算，從內(nèi)存中讀取已有結(jié)果。

理解這一點后，本文所有架構(gòu)設計思路都會一目了然。

KV 緩存的工作原理

想要明白緩存效果為何顯著，需要先了解 Transformer 模型處理提示詞的完整過程。

大語言模型每一次推理請求都分為兩個階段：

?填充階段（Prefill）：處理全部輸入提示詞。

對上下文內(nèi)所有 token 執(zhí)行密集矩陣運算，生成模型內(nèi)部特征表征。該階段計算量大、算力消耗高。

?生成階段（Decode）：逐一生成新 token。

每一個新 token 接入序列后，模型預測下一個 token。該階段主要讀取歷史計算結(jié)果，計算量小，受內(nèi)存限制。

在填充階段，Transformer 會為每個 token 計算三組向量：查詢向量 Query、鍵向量 Key、值向量 Value。

注意力機制依靠這三組向量，計算各個 token 之間的關聯(lián)關系。任意 token 的 Key、Value 向量僅由其前方的 token 決定，一旦計算完成便固定不變。

無緩存機制時，每次請求結(jié)束后這些 Key、Value 張量都會被丟棄，下一次請求需要全部重新計算。以 20000 token 的前綴為例，大量本可復用的注意力計算被重復執(zhí)行。

KV 緩存解決了該問題：將上述張量持久化存儲在推理服務器中，并以 token 序列的加密哈希值作為索引。當新請求攜帶相同前綴時，哈希值匹配成功，直接從內(nèi)存加載對應張量，完全跳過該部分 token 的填充計算。

該優(yōu)化將單個生成 token 的計算復雜度從 O(n2) 降至 O(n)。對于重復 50 輪的 20000 token 前綴，計算量優(yōu)化效果極為顯著。

成本分析

計費規(guī)則決定了該架構(gòu)優(yōu)化的實際價值。

? 緩存讀取價格為基礎輸入單價的 0.1 倍，即每個緩存 token 享受 90% 折扣

? 緩存寫入價格為基礎單價的 1.25 倍，存儲 KV 張量需額外支付 25% 溢價

? 一小時延長緩存有效期，價格為基礎單價 2.0 倍

以下為 Anthropic 旗下各 Claude 模型的對應計費情況。

上述成本優(yōu)勢成立的前提，是維持高緩存命中率。最典型的落地應用案例就是 Claude Code。

Claude Code 30 分鐘編程實戰(zhàn)案例

Claude Code 的設計核心目標僅有一個：保持緩存活躍。

以下從計費角度還原真實 30 分鐘編程對話全過程：

第 0 分鐘
Claude Code 加載系統(tǒng)提示詞、工具定義、項目 CLAUDE.md 文件。

整體內(nèi)容超 20000 token，全部為全新內(nèi)容，是本次對話全程成本最高的時刻，該費用僅需支付一次。

第 1~5 分鐘
用戶下達指令，Claude Code 調(diào)用探索子智能體遍歷代碼庫、打開文件、執(zhí)行檢索指令。

所有新增內(nèi)容全部追加至動態(tài)后綴。而 20000 token 的靜態(tài)前綴已走緩存讀取，單價從 3.00 美元/百萬 token 降至 0.30 美元/百萬 token。

第 6~15 分鐘
規(guī)劃子智能體接收精簡摘要信息，而非原始返回結(jié)果，避免動態(tài)后綴無意義膨脹。模型生成開發(fā)方案，用戶確認后，Claude Code 開始修改代碼。

每一輪交互均從緩存讀取靜態(tài)前綴，緩存命中率突破 90%，且每次讀取都會重置緩存有效期，維持緩存活躍狀態(tài)。

第 16~25 分鐘
用戶提出修改需求，觸發(fā)更多工具調(diào)用、終端輸出，動態(tài)后綴持續(xù)累積內(nèi)容。

本次對話累計處理數(shù)十萬 token，但每一輪交互均復用緩存中 20000 token 的基礎前綴內(nèi)容。

第 28 分鐘
用戶在終端查看費用。若無緩存，調(diào)用 Sonnet 4.5 模型處理 200 萬 token 需花費 6.00 美元。

本次緩存效率達 92%，其中 184 萬 token 為緩存讀取，最終總費用僅 1.15 美元，單任務成本降低 81%。

這就是活躍緩存的實際效果：僅需一次性支付靜態(tài)基礎內(nèi)容費用，后續(xù)均可低價復用，僅動態(tài)新增部分正常計費。

基于哈希緩存的局限性

提示詞緩存最反常識的一點：
1 + 2 = 3 可命中緩存，2 + 1 則緩存未命中。

底層機制會對完整從頭開始的 token 序列做哈希計算。只要序列內(nèi)任意內(nèi)容改動，哪怕僅調(diào)換兩個元素順序，哈希值就會改變，整段前綴都需要全額重新計算。

這并非細微的實現(xiàn)細節(jié)，而是約束條件，Claude Code 所有工程設計均圍繞此約束展開。

以下為生產(chǎn)環(huán)境中真實導致緩存失效的案例：

? 系統(tǒng)提示詞中插入時間戳，導致每次請求哈希值均不同

? JSON 序列化工具在不同請求中調(diào)整工具結(jié)構(gòu)鍵值排序，前綴全部失效

? 對話中途更新智能體工具參數(shù)，20000 token 緩存全部清空

由此總結(jié)三條使用原則：

1. 對話全程不修改工具。工具定義屬于緩存前綴內(nèi)容，增刪工具會導致后續(xù)全部緩存失效。

2. 對話中途不切換模型。緩存與模型一一綁定，中途切換低價模型需要重建全部緩存。

3. 不修改前綴內(nèi)容來更新狀態(tài)。Claude Code 不會改動系統(tǒng)提示詞，而是在用戶消息末尾追加標記，保證前綴內(nèi)容固定。

應用到自研智能體開發(fā)

無論使用 Claude Code，還是從零搭建自研智能體，以上規(guī)則全部通用。

提示詞按如下順序排版：

1. 頂部放置系統(tǒng)指令與行為規(guī)則，對話全程不改動

2. 一次性加載全部工具定義，不中途增刪

3. 緊接著放置檢索上下文與參考文檔，單輪對話內(nèi)保持固定

4. 底部放置對話歷史、工具返回結(jié)果，作為動態(tài)后綴

調(diào)用 Anthropic API 開啟自動緩存后，隨著對話推進，緩存分界點會自動向后延伸。

若未開啟自動緩存，則需要手動劃分 token 邊界，邊界劃分錯誤會直接無法命中緩存。

當上下文長度即將達到上限時，可使用緩存安全分支壓縮方案：保留原有系統(tǒng)提示詞、工具、對話歷史不變，僅新增一條上下文壓縮指令作為消息追加。前綴緩存完全復用，僅新增的壓縮指令 token 需要計費。

想要校驗緩存是否正常生效，可監(jiān)控 API 返回的三個字段：

? cache_creation_input_tokens：寫入緩存的 token 數(shù)量

? cache_read_input_tokens：從緩存讀取的 token 數(shù)量

? input_tokens：未走緩存、正常計算的 token 數(shù)量

緩存效率計算公式：
緩存效率 = cache_read_input_tokens ÷ (cache_read_input_tokens + cache_creation_input_tokens)
需要像監(jiān)控服務可用性一樣持續(xù)跟蹤該指標。

核心總結(jié)

提示詞緩存并非簡單開關功能，而是需要整體架構(gòu)圍繞其設計的開發(fā)準則。

核心原理十分簡單：提示詞結(jié)構(gòu)上，靜態(tài)內(nèi)容居上，動態(tài)內(nèi)容向下新增。平臺對前綴做哈希存儲、保存 KV 張量，后續(xù)每次讀取均可享受高額折扣。

真正的難點在于細節(jié)規(guī)范：不向系統(tǒng)提示詞插入時間戳、不隨意調(diào)整工具定義順序、對話中途不切換模型、不改動緩存分界點之前的任何內(nèi)容。

Claude Code 實現(xiàn)了規(guī)模化落地，達到 92% 緩存命中率、81% 成本降幅。若你正在開發(fā)智能體，卻沒有圍繞提示詞緩存做架構(gòu)設計，將會錯失大量成本優(yōu)化空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Agent中的“愛馬仕”來啦：100k+ Star 的開源AI Agent ，正在偷偷給自己升級

鈦媒體APP 2026-04-23 09:27:15
26 跟貼 26
海外研選 | 大摩：2030年服務器CPU市場規(guī)模或達2830億美元

財聯(lián)社 2026-05-12 20:07:11
0 跟貼 0

卡帕西都整破防了：AI Coding沒門檻，可部署環(huán)節(jié)真嗯啊的難

量子位 2026-03-27 12:12:46
29 跟貼 29

“英偉達稅”之后是“內(nèi)存稅”！AI巨頭面臨嚴峻的“芯片通貨膨脹”

華爾街見聞官方 2026-05-12 18:07:34
19 跟貼 19
沖刺3400億估值，翁荔親自出鏡，交出一款更像人的大模型

智東西 2026-05-12 15:33:00
1 跟貼 1

今天，Claude Code的智能體“監(jiān)工屏”上線

智東西 2026-05-12 15:07:25
0 跟貼 0

ChatGPT、豆包集體翻車：AI沒有價值觀，只有「求生欲」

雷科技 2026-05-11 21:18:29
406 跟貼 406
字節(jié)砍掉30%的AI項目？背后的真假與焦慮

鈦媒體APP 2026-05-11 18:15:28
82 跟貼 82

1元錢285萬Token的陷阱！起底“AI中轉(zhuǎn)站”：封號跑路，模型降智，倒賣用戶數(shù)據(jù)

每日經(jīng)濟新聞 2026-05-12 13:11:21
0 跟貼 0
分享一個好用的Skill，企業(yè)背調(diào)、深度調(diào)研一鍵搞定！

鈦媒體APP 2026-04-10 11:04:29
0 跟貼 0
從字節(jié)、騰訊出走后，他們做起視頻Agent，融資千萬美元

智東西 2026-05-12 18:16:15
0 跟貼 0
OpenAI前CTO創(chuàng)業(yè)的模型首秀，與面壁智能「撞車」了

智東西 2026-05-12 20:09:32
0 跟貼 0
絕殺！OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

新智元 2026-05-12 19:36:49
3 跟貼 3
CVPR 2026 | 20步也能穩(wěn)住畫質(zhì)，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
OpenAI又吃官司！佛州槍擊案兇手問哪種武器和彈藥最適合，何時何地能造成最大傷亡，ChatGPT均給出回答

每日經(jīng)濟新聞 2026-05-12 21:13:07
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
智元殺進香港！2026成為部署態(tài)元年，機器人不再只會跳舞了

雷科技 2026-05-12 21:59:45
0 跟貼 0
AI組織坍縮效應：中層管理者正在失去的，不是職位，是“信息稅”

虎嗅APP 2026-05-12 23:50:21
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
智元APC香港觀察：具身智能的終極角色是先進生產(chǎn)力單元

華爾街見聞官方 2026-05-12 21:49:18
0 跟貼 0
Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
4 跟貼 4
索尼PS6傳將搭載24GB內(nèi)存，降本方案曝光

IT之家 2026-05-12 20:29:50
3 跟貼 3
七年之約被打破，PS6可能遲到到2029年

心事寄山海 2026-05-12 11:10:45
2 跟貼 2
從參數(shù)到外觀：汽車行業(yè)的最后一場競爭

基地邊緣BaseEdge 2026-05-08 17:48:10
1 跟貼 1
龍哥見狀趕緊打出手勢，樹上的狙擊手接到指令后

由你玩四年 2026-05-09 12:04:54
0 跟貼 0
姚來英已任中國煙草總公司總經(jīng)理

界面新聞 2026-05-12 11:12:28
7603 跟貼 7603
歐洲旅行太燒錢，一天花一千，為了省只能泡面續(xù)命

花語舞者 2026-05-12 07:36:56
0 跟貼 0
960萬人圍觀！Claude Code工程師談HTML“復興”：Agent時代，Markdown不夠用了

智東西 2026-05-12 12:41:12
10 跟貼 10
女生曬出男友每次給自己飲料前，都會先撕一個小標記再擰開

樂活咔嚓 2026-05-11 09:36:28
4 跟貼 4
我穿便裝到妻子家過年，被廳長大舅哥使喚，警衛(wèi)員送來文件他腿軟

左允新鮮事 2026-05-11 10:47:31
0 跟貼 0
偷油賊服務器偷油，專挑大貨車下手，職業(yè)素質(zhì)不錯還把油箱蓋蓋上

哈哈看生活 2026-05-12 09:07:30
0 跟貼 0
送文件撞破老板秘密，場面瞬間尷尬，我該怎么自救！

松鼠的搞笑日記 2026-05-11 10:58:54
1 跟貼 1
美議員“痛心”：美國在中東燒錢，給中國送禮

觀察者網(wǎng) 2026-05-10 14:10:07
1 跟貼 1
鬼手想點誰就點誰？LaSM讓GUI智能體把注意力「收回來」

機器之心Pro 2026-04-07 14:27:35
0 跟貼 0
Valve新主機要出4個版本？512G和2T都有，但AI正在搶內(nèi)存

宇宙來信發(fā) 2026-05-12 18:16:00
3 跟貼 3
女子拍照每張照片都有“標記”，眾多網(wǎng)友以為是靈異事件

梗王突襲 2026-05-12 09:57:20
1 跟貼 1
舊內(nèi)存別急著出二手，升級Ultra 200S正合適！

科技偵探社 2026-05-12 16:38:11
3 跟貼 3
新聞要點，伊朗最高領袖會見，武裝部隊司令并下達指令！

搞笑的大耳朵 2026-05-11 16:34:59
0 跟貼 0
Claude Code終于長出調(diào)度臺：一個屏幕盯住所有AI會話，無需多開

新智元 2026-05-12 12:35:45
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內(nèi)住宿

上游新聞 2026-05-11 15:40:24
2953 跟貼 2953

AI先鋒官

AIGC大模型及應用精選與評測

506文章數(shù) 74關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

本地

旅游

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

為什么99%的AI Agent都在燒錢？

宇樹發(fā)布載人變形機甲，定價390萬元起

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

騎士終于玩明白了？

白鹿風波升級！掉粉20萬評論區(qū)淪陷

利潤再腰斬 京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態(tài)度原創(chuàng)

普通人真該學學如何穿搭！多穿裙子比褲子更時髦，大方提氣質(zhì)

求求你試試「5+1+1」學習法!!!

用蘇繡的方式，打開江西婺源

故宮擠滿游客，人人撐傘前行：寧愿熱到出汗，也要奔赴紫禁城！

知情人士披露：美國或考慮恢復對伊朗軍事行動

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

利潤再腰斬京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達