<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      花了1000倍的token,效果卻沒有更好:AI Agent隱性賬單長什么樣

      0
      分享至



      如今的 AI Agent 正在大規(guī)模落地,其中應(yīng)用最廣且最受關(guān)注的當(dāng)數(shù) Claude Code,Codex,Cursor 這類 coding agent。過去的一年里,這類 coding agent 產(chǎn)品迭代迅速,在一年內(nèi)將在 swe-bench- verified 的準(zhǔn)確率提高到了 78%+。

      然而,相比簡單的代碼推理或者和代碼相關(guān)的聊天,coding agent 的 token 消耗也極為顯著。在使用這種 coding agent 的過程中,最常聽到的抱怨也是:“為什么它解決問題這么啰嗦”,“為什么要這么長篇大論”,以及 “為什么我的 credits 這么快又用完了?”

      這些抱怨的背后暴露出當(dāng)前 coding agent 的幾大問題:

      1. 不透明: coding agent 消耗 token 的習(xí)慣不清晰,行為模式以及不同模型之間的差異不透明;

      2. 不保底:在任務(wù)執(zhí)行前難以知道任務(wù)成功與否,但不論是否成功,都要支付相應(yīng)開銷;

      3. 不可預(yù)測:人類估計的問題難度真的和實際的 token 消耗匹配嗎?agent 能否自己判斷問題會消耗多少 token 呢?

      針對這些問題,來自密歇根大學(xué)、斯坦福大學(xué)等單位的研究者,使用開源的 OpenHands agent 框架,分析了 8 個 frontier 模型在 swe-bench-verified 上的軌跡,第一次給出了一份系統(tǒng)性的解答。



      • 論文標(biāo)題:HowDoAIAgentsSpendYourMoney? AnalyzingandPre dicting Token Consumption in Agentic Coding Tasks
      • arXiv 論文:https://arxiv.org/pdf/2604.22750
      • 項目網(wǎng)站:https://longjubai.github.io/agent_token_consumption/

      Agentic Coding 有多貴?

      論文首先比較了和 coding 相關(guān)的 3 種任務(wù):代碼推理(和代碼相關(guān)的單論對話推理任務(wù)),代碼問答對話(關(guān)于代碼問題的多輪對話聊天),以及 swe-bench 上的 agentic 代碼任務(wù)。結(jié)果發(fā)現(xiàn),agentic coding 任務(wù)在平均輸出輸入 token 比,平均總 token 消耗,以及平均金錢消耗,均指數(shù)級高于其他兩種任務(wù)。

      這源自于 agentic coding 任務(wù)的多輪交互和巨大而復(fù)雜的上下文管理:巨量的代碼查詢,文件輸出都會被加入到對話歷史中,導(dǎo)致消耗持續(xù)增加,并且 agent 會不斷把歷史上下文、工具輸出反復(fù)喂給模型,導(dǎo)致輸入輸出比高達(dá) 154:1。這意味著 agentic coding 任務(wù)的成本結(jié)構(gòu)與我們所熟悉的對話和推理任務(wù)有顯著的不同。



      Agentic Coding 的開銷隨機性高,

      且花的越多不一定做得越好

      論文統(tǒng)計了 swe-bench-verified 中 500 個問題的平均 token 消耗,并將消耗從小到大排序。從圖中可以發(fā)現(xiàn),最貴的任務(wù)可能比最便宜的任務(wù)多消耗約 700 萬 token,并且越貴的任務(wù) token 消耗的標(biāo)準(zhǔn)差也越大。

      對同一任務(wù)的重復(fù)運行來說,通過計算最貴的一次運行和最便宜的一次運行的差異,結(jié)果發(fā)現(xiàn)即使是同一任務(wù),最貴的運行仍可能比最便宜的運行貴 2 兩倍左右。

      進一步分析 token 消耗多少與準(zhǔn)確率的關(guān)系,論文發(fā)現(xiàn)更多的消耗并不能保證更高的準(zhǔn)確率。

      對于不同任務(wù)來說,論文根據(jù)平均 token 消耗的數(shù)量進行分組,并統(tǒng)計每組任務(wù)的準(zhǔn)確率,結(jié)果發(fā)現(xiàn) token 消耗更多的任務(wù)往往準(zhǔn)確率較低。

      對于同一個任務(wù)的不同運行來說,將 4 次運行按照 token 消耗排序,分成四個開銷等級,然后統(tǒng)計每一個開銷等級的準(zhǔn)確率。結(jié)果發(fā)現(xiàn):平均所有模型來看,最高的準(zhǔn)確率并不出現(xiàn)在開銷最高的時候,而是出現(xiàn)在較低開銷時。當(dāng)開銷最低時,任務(wù)運行的準(zhǔn)確率最低,當(dāng)提高開銷稍微提高時,準(zhǔn)確率達(dá)到最高,繼續(xù)增加開銷,當(dāng)開銷第二高和最高時,準(zhǔn)確率不增反減 ——更多的資源消耗并沒有帶來更高的任務(wù)成功率。





      為了探索高開銷失敗背后的原因,論文檢查并分析了 agent 解決問題軌跡中的兩類行為:閱讀文件以及修改文件。結(jié)果發(fā)現(xiàn):開銷更大的運行軌跡中,重復(fù)修改和重復(fù)查看同一文件的次數(shù)也明顯更多,這表明更多的 token 消耗其實伴隨了很多來來回回的 “折騰”,而不是高效的推理,嘗試,和檢查。簡單來說,一味簡單地堆 token 并不能顯著帶來更好的效果。





      哪些模型貴,哪些模型省?

      不同模型之間的 token 效率差異極大

      以上的分析是基于所測試的 8 個模型的整體表現(xiàn)特點,在此基礎(chǔ)上,論文對每個模型進行了具體的分析,并比較了他們使用 token 的效率。

      文章測試的八個模型包括 OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Claude Sonnet-4 和 Claude Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2,以及阿里巴巴的 Qwen3-Coder-480B。這八個模型覆蓋了五家不同的公司,同時包含閉源 API 模型(GPT、Claude、Gemini 系列)和開源模型(Kimi-K2、Qwen3-Coder-480B)。其中 Claude Sonnet 有三個版本、GPT 有兩個版本,這樣既包含了跨公司的橫向?qū)Ρ龋灿型患易鍍?nèi)不同代際的縱向?qū)Ρ取?/p>

      通過觀察不同模型的 token 消耗與任務(wù)準(zhǔn)確率的關(guān)系,發(fā)現(xiàn)不同模型間的差異是系統(tǒng)性的,不是因為任務(wù)難度不同, 而是模型自身的行為習(xí)慣。例如 GPT-5 以及 GPT-5.2 可以以較低的 token 成本達(dá)到不錯的準(zhǔn)確率,但 Kimi-K2 在成本較高的同時準(zhǔn)確率卻并沒有很高。在同樣的 500 個任務(wù)下,Kimi-K2 和 Claude Sonnet-4.5 比 GPT-5 多消耗約 150 萬 token。





      論文進一步選出了兩個任務(wù)子集:所有模型都成功的任務(wù)和左右模型都失敗的任務(wù),并再次統(tǒng)計不同模型的 token 消耗。結(jié)果發(fā)現(xiàn)模型的 token 消耗排序基本不變,并且所有模型在失敗任務(wù)子集上的 token 消耗都多于成功子集,不同模型從失敗子集到成功子集的 token 消耗增量也各不相同。

      是否有辦法對任務(wù)的 token 消耗

      進行提前預(yù)測?

      人類專家對任務(wù)難度的判斷與 agent 實際 token 消耗并不完全吻合

      當(dāng)了解了 agentic coding 的開銷后,下一個問題便是:在執(zhí)行任務(wù)之前,是否有辦法根據(jù)要執(zhí)行的任務(wù)來預(yù)測開銷?

      文章首先分析人類專家所理解的任務(wù)難度是否可以作為預(yù)測 agent token 開銷的標(biāo)準(zhǔn)。在 swe-bench-verified 中,每一個任務(wù)都有人類專家所標(biāo)記的任務(wù)難度,按照人類專家預(yù)期的完成時間分為三檔:“< 15 min”,“15 min - 1 hr”,“> 1 hr”。如果說人類消耗的時間就相當(dāng)于 agent 消耗的 token,那么人類所估計的任務(wù)難度是否和 agent 的 token 開銷是吻合的呢?



      論文將不同任務(wù)根據(jù) token 開銷進行排序,并計算它與人類標(biāo)注難度的相關(guān)性。結(jié)果發(fā)現(xiàn) Kendall tau = 0.32,表明人類專家對任務(wù)難度的判斷和 Agent 實際消耗的 token 之間只有很弱的相關(guān)性。

      其中 6.7% 的 "簡單" 任務(wù)比平均 "困難" 任務(wù)還貴,11.1% 的 "困難" 任務(wù)比平均 "簡單" 任務(wù)還便宜 —— 更說明了人類程序員和 AI Agent 對任務(wù)的 "復(fù)雜度認(rèn)知" 是不同的維度。

      Agent 自己是否可以對任務(wù)的 token 消耗做出預(yù)測?

      既然人類預(yù)測的任務(wù)難度和 agent 的實際任務(wù)消耗有所差異,那么是否可以讓 agent 自己來預(yù)測自己的消耗?

      論文緊接著對 agent 的自預(yù)測進行了嘗試:在這部分實驗中 agent 所有的工具和 harness 的架構(gòu)都得到了保留,只有在系統(tǒng)提示詞中將任務(wù)從之前的 “解決問題” 變成了 “預(yù)估開銷”,這樣一來,就可以最大程度的表流 agent 本身的特征和功能,并讓它得以使用同樣的工具對代碼庫進行多輪探索,測試和推理。



      論文中用預(yù)測的開銷和實際開銷的相關(guān)性作為衡量預(yù)測準(zhǔn)確率的指標(biāo),并同時統(tǒng)計了做預(yù)測所消耗的 token。結(jié)果顯示,模型作出的預(yù)測與實際的相關(guān)性最高只有 0.39(Claude Sonnet-4.5 的 output token),大多數(shù)模型都在 0.2-0.3 之間,且對 output token 的預(yù)測比 input token 更加準(zhǔn)確。在成本方面,大部分模型作出預(yù)測所需要的成本都小于實際任務(wù)執(zhí)行成本的一半,除了早期的 Claude Sonnet-3.7 和 4,一度超過真正 task 執(zhí)行成本的兩倍。

      文章進一步分析發(fā)現(xiàn)所有的模型都低估了任務(wù)的實際消耗,尤其對 input token 的低估特別嚴(yán)重。





      因此,不管是人類專家還是 agent 自己,對 token 消耗預(yù)測目前只能作為粗粒度的信號,離精確的事前定價還有很大距離。

      總結(jié)

      文章通過對 coding agent 軌跡的分析,發(fā)現(xiàn) Agent 的 token 消耗以 input token 為主導(dǎo),且在不同問題之間以及同一問題的不同運行之間都存在很高的隨機性。不同模型的 token 效率差異顯著,且更多的 token 消耗并不能保證更高的正確率。在執(zhí)行前成本預(yù)測方面,人類理解的任務(wù)難度與 Agent 的實際 token 消耗并不吻合,Agent 自身的預(yù)估也存在準(zhǔn)確率較低和普遍低估的問題。未來潛在的研究方向包括更高效的 Agent 設(shè)計,以及更好的開銷預(yù)測與管理方法。

      作者介紹:

      本文第一作者 Longju Bai 是密歇根大學(xué)一年級博士生,通訊作者 Jiaxin Pei 現(xiàn)為斯坦福大學(xué)博士后研究員,即將入職得克薩斯大學(xué)奧斯汀分校擔(dān)任助理教授。合作者包括來自斯坦福大學(xué)的 Zhemin Huang 和 Erik Brynjolfsson,來自 All Hands AI 的 Xingyao Wang,來自 Google DeepMind 的 Jiao Sun,來自密歇根大學(xué)的 Rada Mihalcea,以及來自斯坦福大學(xué)和麻省理工學(xué)院的 Alex Pentland。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      美媒集體震驚:這次訪華,才真正見識到中國溫度!

      美媒集體震驚:這次訪華,才真正見識到中國溫度!

      福建睿平
      2026-05-18 11:56:20
      莫斯科遭一年多來最大規(guī)模無人機襲擊,3死18傷

      莫斯科遭一年多來最大規(guī)模無人機襲擊,3死18傷

      上觀新聞
      2026-05-18 04:26:22
      18個兒子108孫!800年古墓橫跨高速引發(fā)熱議,網(wǎng)友:會影響風(fēng)水嗎

      18個兒子108孫!800年古墓橫跨高速引發(fā)熱議,網(wǎng)友:會影響風(fēng)水嗎

      火山詩話
      2026-05-17 09:57:06
      中國第一個將消失的沙漠:面積比海南島還大,如今80%沙漠成綠洲

      中國第一個將消失的沙漠:面積比海南島還大,如今80%沙漠成綠洲

      抽象派大師
      2026-05-16 15:18:26
      軍事 | 特朗普警告“臺獨”,說明了什么?

      軍事 | 特朗普警告“臺獨”,說明了什么?

      新民周刊
      2026-05-18 09:11:21
      毒楊梅立案了!最慘的卻不是吃的人

      毒楊梅立案了!最慘的卻不是吃的人

      社會日日鮮
      2026-05-17 06:32:32
      發(fā)現(xiàn)一個現(xiàn)象:中產(chǎn)返貧三件套,已經(jīng)升級為六件套了!

      發(fā)現(xiàn)一個現(xiàn)象:中產(chǎn)返貧三件套,已經(jīng)升級為六件套了!

      番外行
      2026-05-18 10:25:35
      中國領(lǐng)空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      中國領(lǐng)空不再免費!外國飛機過華須審批,日本最慌:怕被卡脖子

      聞識
      2026-05-14 13:25:29
      突發(fā)!張本智和帶全家逃離日本,簽約德國,竟然要和樊振東當(dāng)隊友了?

      突發(fā)!張本智和帶全家逃離日本,簽約德國,竟然要和樊振東當(dāng)隊友了?

      最愛乒乓球
      2026-05-18 06:06:08
      后車失控 女車主用自己車死死頂住!東風(fēng)日產(chǎn)贈車主一輛N6新車

      后車失控 女車主用自己車死死頂住!東風(fēng)日產(chǎn)贈車主一輛N6新車

      快科技
      2026-05-17 09:56:09
      福建漳州楊梅泡藥風(fēng)波持續(xù)發(fā)酵,無人收購,果農(nóng)欲哭無淚,被害慘

      福建漳州楊梅泡藥風(fēng)波持續(xù)發(fā)酵,無人收購,果農(nóng)欲哭無淚,被害慘

      魔都姐姐雜談
      2026-05-17 09:52:03
      克宮口風(fēng)又變,稱已做好與歐洲談判準(zhǔn)備,烏白邊境大戰(zhàn)一觸即發(fā)

      克宮口風(fēng)又變,稱已做好與歐洲談判準(zhǔn)備,烏白邊境大戰(zhàn)一觸即發(fā)

      史政先鋒
      2026-05-18 11:59:28
      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      小火箭愛體育
      2026-05-18 10:51:24
      現(xiàn)場直擊!郭富城陪方媛返安徽縣城奔喪,夫妻戴孝在靈前跪別外公

      現(xiàn)場直擊!郭富城陪方媛返安徽縣城奔喪,夫妻戴孝在靈前跪別外公

      八卦寶寶
      2026-05-17 01:12:59
      “漫長的救贖”:一名留學(xué)女碩士被網(wǎng)紅前男友造黃謠之后丨在場

      “漫長的救贖”:一名留學(xué)女碩士被網(wǎng)紅前男友造黃謠之后丨在場

      紅星新聞
      2026-05-18 12:27:11
      馬斯克沒坐空軍一號回去,發(fā)布了與母親的合影,他的母親定居上海

      馬斯克沒坐空軍一號回去,發(fā)布了與母親的合影,他的母親定居上海

      世界圈
      2026-05-17 14:28:13
      朝鮮隊大勝日本隊,衛(wèi)冕U17女足亞洲杯冠軍

      朝鮮隊大勝日本隊,衛(wèi)冕U17女足亞洲杯冠軍

      澎湃新聞
      2026-05-18 03:04:24
      最新:烏克蘭收復(fù)哈爾科夫關(guān)鍵失地!圣彼得堡能源通道遭炸毀

      最新:烏克蘭收復(fù)哈爾科夫關(guān)鍵失地!圣彼得堡能源通道遭炸毀

      項鵬飛
      2026-05-17 22:29:37
      驅(qū)車千里維權(quán)!一文梳理190元榴蓮僅退款事件

      驅(qū)車千里維權(quán)!一文梳理190元榴蓮僅退款事件

      新京報
      2026-05-17 09:13:50
      白宮官方披露特朗普訪華成果,中國將購200架波音,恢復(fù)美國牛肉市場準(zhǔn)入

      白宮官方披露特朗普訪華成果,中國將購200架波音,恢復(fù)美國牛肉市場準(zhǔn)入

      西游日記
      2026-05-18 13:53:39
      2026-05-18 14:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13021文章數(shù) 142650關(guān)注度
      往期回顧 全部

      科技要聞

      國產(chǎn)大模型集體更新后能力有多強?

      頭條要聞

      特朗普嚴(yán)厲警告"臺獨"后 賴清德首度發(fā)聲被指態(tài)度強硬

      頭條要聞

      特朗普嚴(yán)厲警告"臺獨"后 賴清德首度發(fā)聲被指態(tài)度強硬

      體育要聞

      哈登晉級東決:第5次分區(qū)決賽第5次贏搶七

      娛樂要聞

      小S曬全家福懷念大S,爺爺奶奶最疼姐姐

      財經(jīng)要聞

      前4月工業(yè)生產(chǎn)較快增長 失業(yè)率5.3%

      汽車要聞

      小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

      態(tài)度原創(chuàng)

      游戲
      本地
      手機
      時尚
      公開課

      《大表哥2》能上Switch!維塔士想移植 NS性能強大

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      vivo S60系列官宣全系標(biāo)配3D超聲波指紋!同檔唯一 沾水秒解鎖

      夏天褲子不用多買,提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 精品国产亚洲一区二区三区大结局| 日韩视频一区二区中文经典| 热久久这里只有精品| 日本精品视频一区二区 | 亚洲岛国片| 亚洲视频在线观看二区三区| 影音先锋熟女少妇av资源| 亚洲v天堂v手机在线| 麻豆成人精品国产免费| 美女视频一区二区三区| 日韩欧美aⅴ综合网站发布| 国产一区二区三区在线影院| 无码国产精品一区二区AV| 国产美女精品视频线播放| 天堂AV无码大芭蕉伊人AV不卡| 成人精品视频99在线观看免费| 日韩av偷拍| 131mm少妇做爰视频| 亚洲成人无码免费一区| 不卡av中文字幕手机看| 中文字幕日韩激情无码不卡码| 欧美巨鞭大战丰满少妇| av中文字幕在线播放| 日本高清免费AAAAA大片视频| 99无码中文字幕视频| 亚洲精品不卡无码福利在线观看| 国产毛片一区二区精品| 亚洲天堂精品日本| 国产精品成熟老女人| 影音先锋资源| 日韩在线视频观看免费网站 | 中文有无人妻VS无码人妻激烈| 丰满少妇69激情啪啪无| 欧美色综合| 欧美高清国产| 亚洲乱码中文字幕久久孕妇黑人 | 国产AV无码专区亚洲AV紧身裤| 欧美群妇大交乱免费视频| 国产黄色影院| 又大又紧又粉嫩18p少妇| 欧美大胆老熟妇乱子伦视频|