<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      實測! AI 智能體在如何燒光你的錢?

      0
      分享至

      隨著AI智能體在代碼、辦公場景里的不斷滲透,其成本問題也越來越被關注到。

      日前,斯坦福、麻省理工、密歇根大學等機構的研究者,共同發出了題為《AI智能體如何花你的錢?——分析與預測智能體編碼任務中的Token消耗》的一篇論文,對智能體編碼任務的Token消耗模式,做了首次系統性量化分析。

      AI智能體的Token消耗都去了哪里?哪些模型的Token效率更高?能否在任務執行前預測其Token使用量?

      針對這些問題,研究小組的實驗結論有些驚人!

      在SWE-bench Verified上的實測顯示,智能體編碼任務的Token消耗,是普通代碼對話的1000倍以上,單任務平均成本高達1.857美元。

      更出人意料的是,成本的隨機性極強:同一任務的不同運行,Token消耗差異最高可達30倍;人類專家評估的任務難度,與實際Token成本幾乎無關,相關系數僅0.15。

      模型之間的效率鴻溝也被徹底暴露:Kimi-K2和Claude-Sonnet-4.5,平均比GPT-5多消耗150萬Token。

      而最反常識的發現是,成本的“大頭”并非模型輸出,而是輸入Token,占總消耗的99%以上,對話歷史與工具調用才是真正的“燒錢元兇”。

      更諷刺的是,所有前沿模型都系統性低估了自身Token消耗,預測與實際的相關系數最高僅0.39,完全無法為成本控制提供可靠參考。

      這些結論,打破了“投入越多、效果越好”的行業迷信,也為AI智能體的商業化落地敲響了警鐘——在追逐更強能力的同時,Token效率正在成為決定智能體能否規模化應用的關鍵門檻。

      以下為論文全文——

      《AI智能體如何花你的錢?——分析與預測智能體編碼任務中的Token消耗》

      AI智能體在復雜人類工作流程中的廣泛普及,正推動大語言模型的令牌消耗量急劇攀升。

      當智能體被用于高 token 消耗任務時,三個核心問題隨之產生:(1)AI智能體的token主要消耗在哪些環節?(2)哪類模型的token使用效率更高?(3)智能體能否在任務開始前,預判自身的token使用量?

      本文針對智能體編碼任務的token消耗規律,開展了首次系統性研究。


      本次研究基于SWE-bench Verified數據集,分析八款前沿大語言模型的完整運行軌跡,測試模型在執行任務前,預估自身token成本的能力。主要研究結論如下:


      第一,智能體任務的消耗成本極高,token使用量是代碼推理、代碼對話任務的1000倍以上,整體成本主要由輸入token主導,而非輸出token;


      第二,token使用量波動極大且具備天然隨機性,同一任務的不同運行流程,token消耗差距最高可達30倍。

      同時,token消耗越高,任務準確率未必越高,準確率往往在中等成本區間達到峰值,高額消耗下反而趨于飽和;


      第三,不同模型的token效率差距顯著,在相同任務中,Kimi-K2與Claude-Sonnet-4.5的平均token消耗量,比GPT-5多出150萬枚以上;


      第四,人工專家評定的任務難度,與智能體實際token消耗關聯性極弱,充分說明人類感知的任務復雜度,和模型實際投入的計算成本存在本質斷層;


      第五,現階段前沿模型無法精準預判自身token消耗,預測值與實際值僅為弱至中等相關,相關系數最高僅0.39,且所有模型都會系統性低估真實消耗。


      本研究為AI智能體的成本經濟學提供全新參考,也將推動該領域的后續深入探索。論文全部代碼與實驗數據已上傳至項目官網。



      1 引言

      編碼智能體是一類自主運行系統,可自主讀取代碼倉庫、分析問題、調用工具,并在極少人工干預的前提下輸出解決方案。

      編碼智能體最初僅用于程序開發場景,憑借強大的工具調用能力與長周期任務處理優勢,如今已廣泛應用于編碼之外的各類領域。


      盡管編碼智能體大幅提升工作效率,但其計費模式長期飽受詬病,核心問題集中在兩點:一是價格不透明,用戶只有任務結束后才能知曉最終花費;二是結果無保障,即便任務執行失敗,用戶依舊需要為全程token消耗付費。


      兩大痛點最終指向同一個核心命題:能否在任務執行前,提前預判token消耗總量?若實現前置預估,用戶可清晰掌握潛在成本、按需選擇模型;服務廠商也能設計分層定價方案,設置預算上限,針對高額消耗任務及時發出預警。

      依托現有研究基礎,本文完成業內首個聚焦AI智能體token消耗的系統性調研,補充多智能體系統token分布、推理模型定價機制的相關研究空白。

      實驗基于OpenHands智能體框架與SWE-bench-Verified數據集,采集八款主流大模型的完整運行數據,總結出五大核心發現。


      其一,智能體編碼任務的消耗量級遠超常規對話與推理任務,即便開啟token緩存機制,輸入token依舊是核心成本來源,與現有編碼類任務的資源分配研究結論一致;


      其二,token使用存在極強隨機性,復雜任務平均消耗更高,但同一任務的多次運行之間,消耗差距最高可達30倍;


      其三,高消耗不等于高準確率,性能往往在中等成本區間最優,過度消耗token本質是無效探索,而非深度推理;


      其四,模型效率分化嚴重,同款任務下,Kimi-K2、Claude Sonnet-4.5的資源消耗遠高于GPT-5,該差異源于模型自身行為邏輯,與任務難度無關;


      其五,人工標注的任務難度無法匹配模型實際消耗,人類視角的難易程度,不能作為評判智能體計算成本的依據。


      以上結論,充分體現了智能體任務token消耗的長尾特征,也印證了上下文加載是成本管控的核心關鍵。

      基于上述觀測結果,本文進一步探究智能體的前置成本預估能力,明確智能體token消耗預測任務的定義:要求智能體依托全部可用工具與運行環境,提前估算輸入、輸出token用量。


      本研究不依賴靜態預測工具與人工特征標注,完全由智能體自主感知環境、完成成本測算。

      實驗結果顯示,模型只能粗略預判token消耗的整體趨勢,精準預測能力普遍薄弱。


      整體來看,輸出token比輸入token更容易預估,根源在于上下文構建、信息檢索、工具探索等行為,會帶來大量不可控的消耗變量。

      與此同時,所有模型均會天然低估實際token用量,即便是頂級前沿模型,也難以完成精準的成本預判。


      雖然單任務的精準預估暫無法實現,但模型的自我預判,可有效區分任務相對成本高低。

      這意味著,智能體自主預估能夠為高額消耗任務提供前置預算預警,在不追求極致精度的前提下,有效提升定價透明度。

      本文核心研究貢獻如下:

      1. 開展業內首個大規模智能體編碼任務token消耗實證研究,開源全部實驗運行數據,支撐后續學術研究;

      2. 拆解智能體token消耗的底層規律,為智能體定價設計、模型迭代優化提供現實依據;

      3. 定義智能體前置token消耗預測任務,完成多類前沿模型基準測試,指出當前模型在資源預判能力上的核心短板。

      綜上,本次實證研究與預測實驗,清晰拆解了智能體編碼任務的token消耗去向與前置預判邊界,為構建更透明、貼合用戶需求的智能體定價體系,提供了切實可行的優化方向。

      2 數據與研究方法

      本研究采用OpenHands作為基礎智能體框架,以SWE-Bench-Verified為測試基準數據集。該數據集收錄真實GitHub線上問題案例,配套完整代碼倉庫與測試腳本,貼合實際開發場景。

      實驗選取八款主流大模型開展對照測試,分別為:Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5、GPT-5、GPT-5.2、Qwen3-Coder-480B-A35B-Instruct、Kimi-K2、Gemini-3-Pro。


      所選模型覆蓋不同技術架構、訓練范式與部署模式,兼顧編碼能力與運行穩定性,保障實驗結論的普適性。

      本次實驗聚焦全流程問題解決的完整token消耗:僅提供初始任務描述,全程無人工干預,由大模型智能體自主完成環境交互與任務閉環。


      單條測試任務分為多輪交互,每一輪中,模型基于歷史提示內容生成回復,同步完成工具調用與指令執行。所有歷史對話記錄、提示文本與生成內容,會完整保留并帶入下一輪交互。

      為精準拆解模型行為與成本關聯,本研究提取多維度精細化指標,包括各類令牌用量、實際計費成本、操作行為類型等。


      通過解析智能體結構化JSON輸出數據,結合每一輪交互的用量日志,完整還原模型操作邏輯與資源消耗細節。所有token相關數據,均采用單任務四次獨立運行的平均值,規避偶然誤差。


      實驗采集完整運行軌跡、推理日志、中間輸出結果、評估數據與元數據,全方位分析智能體行為特征與成本變化規律。

      3 智能體token消耗整體規律

      本章聚焦智能體編碼任務的核心消耗特征,橫向對比智能體編碼、代碼對話、代碼推理三類任務的消耗差異;縱向分析不同任務、多次運行之間的token波動關系,驗證高成本與任務完成率的關聯;最終驗證人工難度評級與模型實際消耗的匹配度。

      智能體任務消耗成本極高,輸入token主導AI智能體成本

      橫向對比三類編碼相關任務后發現:智能體編碼任務的平均token用量,是單輪代碼推理任務的3500倍、多輪代碼對話任務的1200倍。


      巨大差距的核心誘因,是輸入token的指數級增長。智能體工作流需要整合多渠道信息,重復加載同一上下文內容,即便開啟token緩存機制,輸入輸出token比例依舊嚴重失衡,整體成本居高不下。


      該結果證明,智能體任務的運行邏輯與傳統對話、推理任務存在本質差異,也進一步凸顯了開展智能體專屬token消耗研究的必要性。

      token消耗在不同任務與多次運行中波動劇烈

      不同任務的token消耗是否存在固定規律?同一任務重復運行時,智能體的資源消耗是否趨于穩定?


      實驗統計不同任務的平均消耗數據,以及同一任務多次運行的波動情況。結果顯示,不同任務之間的消耗差距懸殊,token最高的任務,比最低任務多出約700萬枚token。


      高消耗任務的運行波動幅度更大,代表復雜場景下,智能體的行為穩定性會大幅下降。


      針對同一任務的多次對照測試發現,單任務最高消耗與最低消耗的成本比值接近兩倍。


      即便任務內容完全一致,智能體的token使用量依舊存在巨大偏差。

      綜合來看,任務差異、重復運行帶來的雙重波動,讓token消耗預測與智能體定價,成為一項極具挑戰性的難題。

      token消耗越高,任務成功率未必越高

      基于巨大的消耗波動,學界普遍存在固有認知:token投入越多,任務表現越好。本文從單任務、多輪運行兩個維度,驗證這一猜想。


      從任務維度來看,輸入token消耗越高的任務,整體準確率反而越低,該規律在所有測試模型中保持一致。


      直觀解釋為:高難度問題本身邏輯更復雜,自然需要消耗更多資源,輸出token數據也呈現相同趨勢。


      針對同一任務的多次重復測試,將四次運行按成本劃分為最低成本、中低成本、中高成本、最高成本四個等級。


      數據顯示,從最低成本到中低成本區間,任務準確率小幅提升;但進入中高、最高成本區間后,性能不再增長,完全進入飽和狀態。


      這種非單調變化規律,與近期測試算力反向衰減的研究結論相互印證:額外的推理步驟、冗長的思維鏈路,無法穩定提升準確率,反而容易引入無效干擾、錯誤關聯與低效循環。


      在長周期、集成化智能體系統中,算力投入與任務效果的制衡關系早已被證實,本次研究進一步佐證:單純增加token消耗,無法有效提升模型執行性能。

      圍繞高消耗、低成效的運行特征,本文深入分析文件查看、重復編輯等行為規律。數據表明,高成本運行流程中,重復查看、反復修改同一文件的行為頻次大幅上升。


      大量高額但失敗的任務,普遍存在無意義的反復文件操作與重復編輯行為,冗余交互不斷拉長上下文長度、透支token資源,卻無法推進問題解決。


      并非所有高消耗運行都存在冗余行為,但這一特征,從行為層面切實解釋了前文準確率與成本反向掛鉤的核心現象。

      人工評定的任務難度,無法有效預判智能體token消耗

      不同開發任務,需要工程師投入的時間與精力截然不同。

      SWE-bench-Verified數據集依據專業開發者的排障耗時,劃分四級難度:「15分鐘以內」「15分鐘至1小時」「1至4小時」「4小時以上」。


      由于「4小時以上」樣本僅3條,本文將其與「1至4小時」合并,統一歸類為「1小時以上」難度組別。


      人類主觀判定的任務難度,能否精準預判智能體token用量?


      數據分布對比結果顯示,資源消耗會隨任務難度提升略有上漲,但二者無線性關聯。


      人類難度評級與token消耗僅存在微弱的等級相關性,肯德爾等級相關系數為0.32,兩類數據高度重疊:6.7%的簡易任務,消耗高于高難度任務平均值;11.1%的高難度任務,消耗低于簡易任務平均值。

      這類特殊案例充分說明,人類認知的復雜度,和模型的任務理解邏輯完全脫節。

      人類眼中的簡單任務,往往需要模型開展海量推理、信息檢索與工具交互;部分公認的高難度問題,模型可依托預訓練知識與檢索策略高效解決。


      綜上,人工標注的難度等級,不能作為評估智能體資源投入的有效依據。

      4 哪類模型具備更高的token使用效率

      智能體token消耗的爆發式增長,讓大規模部署編碼智能體的企業與機構,面臨緊迫的成本管控壓力,選擇兼顧性能與性價比的高效模型,成為行業剛需。


      本章橫向對比八款前沿模型的準確率與成本制衡關系,全面評估不同模型的令牌使用效率。

      模型間的準確率與成本差異

      為厘清模型效率差距,本文系統分析任務準確率與token消耗的制衡關系。


      數據顯示,token預算更高的模型,整體準確率略有優勢,但不同模型的成本控制能力天差地別。


      GPT-5、GPT-5.2 以低消耗實現高準確率,綜合表現均衡;Claude Sonnet 4.5、Claude Sonnet 4、Qwen3-Coder-480B 長期處于高消耗區間;Kimi-K2 表現異常,同時坐擁最高消耗與最低準確率。

      區分任務結果進一步測試發現:理想狀態下,高性能模型處理通用簡單任務應更節省資源,面對無解難題可提前終止運行,減少無效消耗。


      但實驗結果完全相反,無論任務最終成功或失敗,各模型的token消耗排名固定不變。


      這證明,消耗差異并非由任務難度導致,同一任務對不同模型天然存在成本鴻溝,本質是模型自身的行為特性,而非問題本身屬性決定。

      與此同時,所有模型在失敗任務中的消耗,普遍高于成功任務,但增幅差距極大。


      GPT-5、GPT-5.2 消耗增量不足50萬枚token,漲幅溫和;Kimi-K2 增量接近200萬枚。


      核心原因在于,當前模型普遍缺乏無解任務識別機制,無法及時終止無效運行,只能反復檢索上下文、重試操作、循環探索,在無進展的流程中持續累積成本。


      無效消耗的規模因模型而異,證明效率差距是模型的固有系統性缺陷,且會在任務失敗時進一步放大。

      模型精細化操作行為差異

      結合模型整體的準確率、效率差距,本文拆解精細化操作行為,深挖差距成因,重點分析文件查看與文件修改兩類核心交互動作。


      高效模型(GPT-5、GPT-5.2)的文件查看、編輯操作頻次更低,重復操作占比極少;
      高消耗模型(Qwen3-Coder-480B、Claude Sonnet 4、Kimi-K2)交互行為繁瑣,近半數操作是重復調取、修改同一文件,探索行為冗余、交互邏輯低效。


      綜上,模型資源利用效率,不僅取決于操作總數量,更取決于每一步操作的執行質量與有效程度。

      5 不同階段與輪次下的token成本變化規律

      長周期智能體任務的執行鏈路復雜冗長,多輪交互持續累積上下文內容,交替執行各類操作,反復讀寫同一文件。


      在計費規則層面,大模型廠商對不同類型token實行差異化定價,即便總token數量相同,因消耗節點、token類型不同,最終實際花費差距巨大。


      本章以 Claude Sonnet-4.5 為案例,拆解智能體成本黑箱,量化各類token的消耗占比與實際計費標準。

      5.1 實驗設置

      主流商業大模型采用分級定價:輸出token單價最高,需模型逐字生成;常規輸入token定價中等,用于全新指令處理;緩存輸入token價格最低,重復讀取歷史上下文可享受大額折扣。


      以Anthropic為代表的平臺,將緩存服務細分緩存創建、緩存讀取兩類計費項。緩存創建指將全新上下文錄入緩存留存復用;緩存讀取指后續調取歷史緩存內容。


      該規則對智能體任務影響深遠,長周期運行會持續疊加文本內容,若無緩存機制,每一輪交互都需要重復處理歷史信息,成本將徹底失控。

      本次研究從兩大維度拆解成本:


      一是階段維度,將完整解題流程劃分為環境部署、信息探索、問題修復、結果驗證、收尾總結五大階段,對比各階段token用量與費用差異;


      二是輪次維度,逐輪追蹤單條任務鏈路,拆分每一輪的token類型占比,定位不同階段的核心消耗項。


      實驗統一采用 Claude Sonnet-4.5,接口將成本分為四類獨立計價:非緩存輸入、模型輸出、緩存創建、緩存讀取,緩存創建費用統一按照五分鐘有效期標準計算。

      5.2 任務階段的token消耗特征

      結合智能體實際功能行為,劃分五大語義階段,各階段輪次占比清晰明確:問題修復、信息探索為核心環節,合計占比約三分之二;剩余三分之一由環境部署、結果驗證、收尾總結構成。


      匯總500項測試任務數據后發現:緩存讀取token,無論是數量還是費用貢獻,均為全流程最高。


      所有階段中,緩存輸入token消耗遙遙領先,體現了歷史上下文循環復用的核心特征;非緩存輸入與緩存創建消耗趨勢同步,新增內容會即時錄入緩存;輸出token僅在環境部署階段偏高,集中用于前期任務規劃。

      實際費用數據進一步驗證,緩存讀取是全流程第一成本來源。


      雖然單枚輸出token的定價約為緩存讀取token的80倍,但海量累積的緩存讀取用量,最終總成本遠超高價輸出token,凸顯了上下文反復復用帶來的隱性成本壓力。

      5.3 單輪運行的成本動態變化

      選取典型任務鏈路逐輪分析后發現:緩存讀取成本會隨任務推進穩步遞增,形成穩定基礎消耗;單輪總成本波動劇烈,費用峰值集中在新增上下文的關鍵操作,包括倉庫檢索、文件新建、測試運行、最終總結等。

      簡單來說,復用歷史緩存的成本穩定可預測;真正拉高單輪費用的,是智能體每一輪主動新增的上下文內容。


      不同階段的成本結構與功能定位高度匹配:部署階段以規劃推理為主,輸出token為核心消耗;探索階段大量讀取代碼文件,輸入token成為成本主力;修復、驗證、收尾階段,輸出token用于腳本編寫與代碼修改,輸入token主要消耗在測試日志讀取。


      不同操作行為對應完全不同的成本類型:文件查看、測試運行、環境清理等工具調用,會大幅推高非緩存輸入成本;任務規劃、腳本編寫、總結輸出等創作類行為,以高成本輸出token消耗為主。

      6 任務執行前的智能體token消耗預測

      前文研究揭示了當前智能體計費模式的核心矛盾:任務消耗差異極大,高成本無法穩定換取優質結果。


      用戶無法提前預判費用,常為失敗任務支付高額賬單;廠商缺乏前置成本管控手段,定價方案難以兼顧穩定性與用戶預期,預算限制、超額攔截等功能也無法落地。


      精準的前置成本預估,可同時解決用戶與廠商的雙向痛點。

      本章正式定義智能體token消耗預測任務,實證測試智能體的自我預估能力。研究聚焦自主預測模式,由執行任務的同款編碼智能體,自行估算資源用量。


      自主預估是自主智能體的核心基礎能力,具備自我行為預判、資源測算的模型,才能合理規劃流程、管控預算、判斷任務價值、及時終止無效操作。


      成本預估也是模型自我行為建模的具象體現,可量化落地。同時,自主預測具備兩大實用優勢:執行智能體掌握完整任務信息,預判依據更充分;無需額外搭建預測模型與運維體系,可直接適配現有系統。


      實驗設置

      直接依托編碼智能體完成自我消耗預估,保留全部工具調用與環境交互權限。


      智能體可提前檢索倉庫結構、運行基礎指令、梳理執行路徑,僅輸出量化的token預估結果,不執行問題修復,邏輯等同于開發者正式開發前的工作量評估。


      參考模型自反饋、自校準相關研究,設計精細化提示詞,引導智能體拆分任務流程,分別預估輸入令牌、輸出token與總成本,附帶標準示例統一輸出格式。


      受預算限制,每款模型在500項測試任務中,各完成三輪獨立預測。


      采用皮爾遜相關系數,衡量預估值與實際值的匹配程度,以預測成本與實際任務成本的比值,計算預測環節的額外開銷。

      實驗結果

      八款模型的預測數據顯示:所有模型的自我預估能力普遍有限,預估結果與實際消耗僅呈弱相關。


      Claude Sonnet 系列迭代優化明顯,Sonnet 4.5 的輸出令牌預測相關性最高,達到0.39;GPT、Kimi、通義千問編碼模型處于相近弱相關區間;Gemini-3-Pro 整體預測能力墊底。


      受長周期任務上下文持續擴容影響,輸入token的預估難度遠高于輸出令牌。


      Kimi-K2 是唯一特例,輸入token預測相關性達0.38,證明該模型對上下文擴容的敏感度相對更高。


      整體而言,模型僅能粗略預判消耗趨勢,無法實現單任務精準量化預估。

      預測環節的額外開銷

      token令牌預估本身會多數模型的預估消耗低于正式任務的一半,但開銷與預測精度無正向關聯。


      Sonnet 3.7、Sonnet 4 的預測開銷遠超實際任務,卻未提升預估精度;Sonnet 4.5 以極低開銷,拿下系列最高預測相關性;GPT-5.2 將預估開銷壓縮至6%以內,同時維持中等預判水平。


      數據證明,在合理控制算力消耗的前提下,模型預測精度仍有極大優化空間。

      模型普遍低估自身token需求

      相關系數僅能體現數據關聯強度,無法反映偏差方向。


      預估值與真實值的對比結果顯示:所有測試模型都會系統性低估token消耗,輸入token的低估問題最為嚴重,即便實際消耗達到數百萬量級,模型預估結果依舊嚴重偏低,無示例對照實驗也驗證了該偏差的普遍性。

      綜上,當前技術條件下,智能體前置成本預估存在本質難點。


      預測結果雖優于隨機猜測,但精度不足,無法支撐單任務精準計費;同時,自我預估會帶來額外延遲與算力開銷,探索型模型尤為明顯,難以適配實時交互、時效敏感的落地場景。


      現階段,自我預測僅可作為成本高低的粗略參考,想要實現高精度、低成本、可落地的前置預估,仍是亟待突破的行業難題。

      7 討論

      本文完成業內首次AI智能體token消耗全維度系統性分析,實證測試前沿模型的前置成本預估能力。


      本章梳理研究核心局限,闡述研究結論對智能體系統設計、定價機制優化的參考價值。

      研究局限性

      本次實驗覆蓋八款主流前沿模型,樣本范圍優于同類研究,但無法涵蓋全部智能體生態。


      完整運行軌跡的采集與分析需要極高算力成本,一定程度限制了模型測試數量。


      本次實驗觀測到的核心規律,在所有模型中高度統一,后續可拓展更多模型架構與智能體設計方案,進一步驗證結論普適性。


      研究已開源完整實驗流程,可供后續研究復現與二次拓展。

      用戶定價透明化

      任務執行前的精準token預估,是提升定價透明度、增強用戶信任的核心前提。


      理想狀態下,智能體系統應提前告知用戶任務預期花費,輔助理性決策。


      當前大模型的單點精準預估能力不足,無法實現費用精確測算。


      但依托本次研究結論,智能體可完成低成本粗略預判,快速識別高消耗、高風險任務。


      即便沒有精準數值,該預判能力也可支撐平臺上線費用預警、二次確認、低成本備選模式等功能,從源頭管控超額消耗。

      智能體定價策略

      定價設計是智能體服務商的核心發展難題。
      ChatGPT 等通用產品可依托訂閱制穩定盈利,核心原因是普通用戶的token消耗可控、可預測。


      但智能體任務徹底打破這一邏輯,多步推理、高頻工具調用,會讓簡單任務產生巨額消耗。
      智能體運行軌跡具備天然隨機性,輸入token消耗波動劇烈,純固定定價模式難以落地。


      在前置預估技術成熟前,按量計費仍是最可行的商業化方案。


      同時,可搭配預算約束型工具調用策略,緩解成本波動問題。長遠來看,兼顧廠商盈利與用戶預期的新型定價體系,是未來核心研究方向。

      8 結論

      隨著智能體技術規模化落地,token消耗持續高速增長,任務前置成本預判,已成為搭建透明、可持續AI智能體定價體系的核心環節。


      本文圍繞智能體token消耗開展系統性調研,全面評估前沿模型的自我成本預估能力。


      研究證實,智能體任務的token消耗邏輯復雜多變,受模型行為、交互模式、任務流程多重影響;現階段,即便是頂級大模型,也無法精準預判執行消耗。


      本次研究深度拆解智能體成本消耗規律與行為特征,為優化模型可控性、完善計費規則提供全新理論支撐,也將推動行業開展更多關于智能體成本管控、透明化定價的深度研究。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      溫讀史
      2026-05-11 18:52:22
      斯諾克名宿:吳宜澤訓練方法和奧沙利文一樣,左右開弓能力太恐怖

      斯諾克名宿:吳宜澤訓練方法和奧沙利文一樣,左右開弓能力太恐怖

      楊華評論
      2026-05-12 17:41:26
      教育部部長懷進鵬:要促進教師通科技、善引導、有溫度

      教育部部長懷進鵬:要促進教師通科技、善引導、有溫度

      澎湃新聞
      2026-05-12 16:06:34
      伊朗一仗讓普京看清現實,俄或不再是世界大國,中國不是第2強?

      伊朗一仗讓普京看清現實,俄或不再是世界大國,中國不是第2強?

      仁慈的視角
      2026-05-13 00:56:31
      人民日報怒批炫富偷稅749萬,逃國外又割內地韭菜

      人民日報怒批炫富偷稅749萬,逃國外又割內地韭菜

      二大爺觀世界
      2026-03-29 23:57:05
      泡泡瑪特業績炸裂,收益最高增長80%

      泡泡瑪特業績炸裂,收益最高增長80%

      21世紀經濟報道
      2026-05-12 18:22:06
      女子4S店找母嬰室喂奶遭嘲笑,理想客服:門店已主動道歉,承諾將在215家門店增設母嬰室

      女子4S店找母嬰室喂奶遭嘲笑,理想客服:門店已主動道歉,承諾將在215家門店增設母嬰室

      觀威海
      2026-05-12 10:10:07
      就算中產不裝了,也不會買“保羅散步”

      就算中產不裝了,也不會買“保羅散步”

      中國新聞周刊
      2026-05-10 23:25:23
      離開德云社16年,40歲的曹云金又攤上事了:這回,還能翻身嗎

      離開德云社16年,40歲的曹云金又攤上事了:這回,還能翻身嗎

      情感大頭說說
      2026-05-13 03:36:51
      陜西省西安市發布雷雨大風黃色預警信號

      陜西省西安市發布雷雨大風黃色預警信號

      北青網-北京青年報
      2026-05-12 20:46:07
      52歲大媽再嫁67歲大爺,阿姨:他太不要臉了,大爺:是她自愿的

      52歲大媽再嫁67歲大爺,阿姨:他太不要臉了,大爺:是她自愿的

      熱心柚子姐姐
      2026-05-10 11:19:55
      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      梅子的小情緒
      2025-12-19 14:04:18
      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      做一個合格的吃瓜群眾
      2026-05-12 15:10:23
      科學家首次發現:動脈粥樣斑塊竟能完全消退!不過需滿足4個條件

      科學家首次發現:動脈粥樣斑塊竟能完全消退!不過需滿足4個條件

      39健康網
      2026-05-09 21:11:38
      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      影孖看世界
      2026-05-11 18:05:24
      長期反核的賴瑞隆喊高雄設AI算力中心,柯志恩質問:電從哪來

      長期反核的賴瑞隆喊高雄設AI算力中心,柯志恩質問:電從哪來

      海峽導報社
      2026-05-12 17:40:18
      一名中國公民被印度邊防部隊拘捕,中領館鄭重提醒 : 進入印度必須提前取得印度簽證,被捕處以2至8年監禁和罰金,且難以保釋

      一名中國公民被印度邊防部隊拘捕,中領館鄭重提醒 : 進入印度必須提前取得印度簽證,被捕處以2至8年監禁和罰金,且難以保釋

      每日經濟新聞
      2026-05-10 00:40:47
      汽車4月國內銷量下跌21%油車跌37% 出口暴漲80%

      汽車4月國內銷量下跌21%油車跌37% 出口暴漲80%

      網上車市
      2026-05-11 21:44:30
      看完北京男籃88-73廣東,不得不承認的6個事實,胡明軒13分盡力了

      看完北京男籃88-73廣東,不得不承認的6個事實,胡明軒13分盡力了

      天光破云來
      2026-05-13 01:30:43
      今年俄羅斯勝利日閱兵,為何唯獨朝鮮派兵參加?中國怎么沒派

      今年俄羅斯勝利日閱兵,為何唯獨朝鮮派兵參加?中國怎么沒派

      劉振起觀點
      2026-05-10 16:05:00
      2026-05-13 04:40:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      506文章數 74關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      本地
      健康
      親子
      家居

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      本地新聞

      用蘇繡的方式,打開江西婺源

      干細胞能讓人“返老還童”嗎

      親子要聞

      夏天建議:把孩子的空調服換成它!

      家居要聞

      極簡主義下的居住場域與空間

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一级三级三级在线视| 亚洲欧洲日韩国产综合在线二区| 国产成人无码a区在线观看视频免费| 国产AV福利第一精品| 国精一二二产品无人区免费应用 | 亚洲精品国偷拍自产在线麻豆| 日韩av手机免费观看| √天堂资源地址在线官网| 国产精品欧美久久久久无广告 | 亚洲AⅤ中文无码字幕色| 欧美激烈精交gif动态图| WWW免费视频| 亚洲AV男人的天堂在线观看| 自拍偷拍一区蜜桃视频| 成年18禁美女网站免费进入| 野外三级国产在线观看| 亚洲天堂男人影院| 亚洲天堂男人| 99re6热在线精品视频播放| 无码AV中文字幕久久专区| 天堂AV无码大芭蕉伊人AV不卡| 亚洲精品自偷自拍无码| 国产成人精品视频不卡| 国产成人午夜福利在线小电影| 亚洲性日韩精品一区二区| 国产又黄又硬又湿又黄的视| 国产精品久久久久久妇女| 国产在线视频你懂的| 欧美亚洲日韩中文| 日本一区二区三区黄色网| av大帝| 中文字幕高清| 97久久久久久久久久久一区二区三区| 少妇极品熟妇人妻专区视频| 精品国产AⅤ无码一区二区| 欧美肥老太牲交| 成人网站免费观看永久视频下载| 国产精品一区二区AV不卡| 五月综合激情婷婷六月色窝| 国产亚洲欧美另类久久久| 最新国产精品拍自在线播放|