<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      警惕!大模型成本倒掛:你正在為模型的多余「思考」買單

      0
      分享至



      在選擇使用大模型 (LLM) 時,除了模型性能強弱,價格也是一個重要指標。人們通常會用大模型的 API 定價更貴或更便宜,來比較模型的價格高低。但事實上,定價低的模型真的比定價高的模型使用起來更便宜嗎?

      如今,一項來自斯坦福、加州伯克利大學、卡內基梅隆大學和微軟研究院的研究,揭示了 AI 模型中的價格倒掛現象:低定價的 AI 模型,反而有可能產生更高的實際開銷!



      • 論文標題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
      • 論文地址:https://arxiv.org/abs/2603.23971

      圖 1 給出了主流模型的定價和它們在實際任務上的開銷。



      圖 1: 左圖展示了模型定價和實際花銷的關系,右圖給主流模型定價和實際價格各自排序。揭示了價格倒掛現象:低定價的模型反而產生了更高的實際開銷。

      GPT-5.2 的 API 定價是 Gemini 3 Flash 的 4.5 倍,但其實際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價是 Google Gemini 3.1 Pro 的兩倍,但其實際成本卻低了 35%。

      這到底是怎么回事?今天,我們就一起探討這項研究。

      AI 模型開銷的審計框架

      為了精準刻畫 AI 模型的實際開銷,研究聚焦于 8 個廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個主流數據集。

      前沿模型通常采用按量付費的定價機制,即用戶為發送的每個查詢分別付費。

      這種定價機制對于給定模型通常涉及兩個組成部分:每單位輸入 token 的價格,以及每單位輸出 token 的價格。對于給定查詢,成本是兩個價格按提示 token 數和輸出 token 數加權的總和。(為了便于理解, 下文中的討論都使用平均加權。 對更多不同加權情況感興趣的話,可以在互動網站上嘗試:https://price-reversal.streamlit.app/)

      AI 模型的成本倒掛現象



      圖 2: 實際成本排名在不同任務之間存在顯著差異。

      測試發現:定價排名與實際成本排名的巨大反差,且這樣的價格逆轉是普遍存在的。根據固定標價 API 定價進行的標準評估是具有誤導性的。

      例如,Gemini 3 Flash 的標價($3.5)僅為 GPT-5.2 價格($15.75)的 22%,但其在 MMLUPro 上的實際成本實際上是后者的六倍(見圖2)!

      根據 API 標價,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實際成本幾乎是 Gemini 3.1 Pro 的兩倍。

      為量化價格逆轉的普遍程度,研究人員檢查了所有 8 個模型組成的 28 個模型對,在 9 項任務上的表現,共產生 252 次成對成本比較,其中21.8%(55 次)比較表現出價格逆轉。

      這意味著,僅基于標價的成本判斷中,大約每五次就有一次是錯誤的。同時模型的相對成本排序高度依賴于任務。一個在某個數據集上便宜的的模型可能在另一個數據集上成為最昂貴的之一。

      為什么會出現倒掛現象?

      我們先來介紹一個有趣的現象:一個富人和窮人同時購買靴子。富人花費了 100 元購買了一雙好靴子,而窮人為了省錢,只能支付 15 元購買了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結果,窮人不得不每年購買一雙壞靴子。一個悖論就此出現了:窮人為了省錢購買了便宜的靴子,但卻花費了更多的錢。這就是社會經濟學中著名的靴子理論(Boots Theory):看上去價格便宜的商品,有可能帶來更高的總成本。

      研究發現有些 AI 模型也出現了類似的 “靴子現象”, 問題的關鍵是推理 token。



      圖 3:圖中展示了模型真實價格的具體拆分:輸入、推理、輸出。不同模型在相同任務上消耗的推理token 數量差異巨大。

      首先,推理 token 是模型開銷的主要來源。如圖 3 所示,在模型的開銷里,輸入的 prompt 和輸出的最終結果通常只消耗總成本的 10% 不到,而大部分的開銷都來自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導的成本組成部分。其次,不同模型的推理 token 的數量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



      圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個思考 token,而 Gemini 3 Flash 使用超過 11,000 個,導致實際成本高出 2.5 倍。

      圖 4 給出了一個具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過程卻大相徑庭:GPT-5.2 僅僅使用約五百個 token 就完成了思考,而 Gemini Flash 卻需要超過一萬個 token。這揭示了開銷逆轉的本質來源于思考 token 數量的巨大差距。



      圖 5: 從實際成本計算中去除思考 token 成本。(a) 標價排名與實際成本排名之間的相關性在所有任務中均顯著提高。(b) 成對排名逆轉數平均減少 70%。

      事實上,去掉思考 token 可以使得實際開銷和模型定價保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復了所有 9 項任務的排名一致性,并且使得排名逆轉的數量減少了 70%。這進一步驗證了思考 token 才是成本倒掛的隱藏殺手。

      我們可以直接預測任務成本嗎?



      圖 6: 實際開銷的不可預測性。對每一個 AIME 數據集上的任務跑 5 次所產生的推理 token 數量。對于固定的任務和固定的模型,多次實驗所產生的 token 數,也有著巨大的差異。這意味著推理 token 數量本身就是不可預測的。

      既然定價不能準確反映實際開銷,我們是否可以直接預測實際開銷呢?

      實踐表明:實際開銷其實是一個高度不可預測的量!

      如圖 5 所示,研究人員在數學競賽數據集上多次運行同一個模型,發現它們的推理 token 的數量差距巨大。例如,對第 6 個任務,GPT-5.2 的推理 token 數最大可達五萬,最低只需 2 萬,達到了 2.5 倍的差距。這就意味著,推理 token 數本身帶有巨大的隨機性,因此,推理 token 數具有高度的不確定性和不可預測性,從而讓實際開銷的預測變得極為困難。

      結論

      這一研究發現了AI 模型領域的靴子現象:定價更低的模型反而可能帶來更高的實際開銷。同時,它又指出了實際開銷的不確定性和不可預測性。這表明,要選取物美價廉的 AI 模型,并不是看看價目表就夠了。

      作者們還開源了使用的數據,提供了一個可互動的網站,為后續研究提供了基礎。

      • 數據:https://github.com/lchen001/pricing-reversal
      • 網站:https://price-reversal.streamlit.app/

      作者介紹

      本文由來自斯坦福大學、加州伯克利大學、卡內基梅隆大學、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

      • Lingjiao Chen,斯坦福大學博士,微軟研究院資深研究員。
      • Chi Zhang,卡耐基梅隆大學博士。
      • Yeye He,微軟研究院首席研究員。
      • Ion Stoica,加州伯克利大學教授,美國工程院院士,Databricks 創始人兼主席。
      • Matei Zaharia,加州伯克利大學教授,Databricks 創始人兼首席技術官。
      • James Zou,斯坦福大學教授。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      尼克斯4-0橫掃76人晉級東決,25記三分平季后賽紀錄

      尼克斯4-0橫掃76人晉級東決,25記三分平季后賽紀錄

      劉笤說體壇
      2026-05-11 06:46:58
      巴薩本世紀13次問鼎聯賽,五大聯賽同期聯賽奪冠數僅少于拜仁

      巴薩本世紀13次問鼎聯賽,五大聯賽同期聯賽奪冠數僅少于拜仁

      懂球帝
      2026-05-11 06:09:12
      蔡正元身陷囹圄43天突傳動向,眾人嘩然,馬英九一步棋走錯

      蔡正元身陷囹圄43天突傳動向,眾人嘩然,馬英九一步棋走錯

      阿天愛旅行
      2026-05-10 20:11:47
      日媒:擺脫制裁開始反攻,華為海外恢復至七成,失去的正拿回來

      日媒:擺脫制裁開始反攻,華為海外恢復至七成,失去的正拿回來

      王新喜
      2026-05-10 14:21:40
      中方連夜發布聲明,涉疫船舶轉交第三國!疫情暴發,譚德塞已行動

      中方連夜發布聲明,涉疫船舶轉交第三國!疫情暴發,譚德塞已行動

      基斯默默
      2026-05-10 07:06:00
      森林北回應與汪峰分手

      森林北回應與汪峰分手

      TVB的四小花
      2026-05-10 15:09:29
      太感動!倫敦世乒賽,國乒女隊奪冠,孫穎莎哽咽,王曼昱落淚

      太感動!倫敦世乒賽,國乒女隊奪冠,孫穎莎哽咽,王曼昱落淚

      老王大話體育
      2026-05-11 06:25:14
      西甲焦點戰:巴薩2-0皇馬,三大不可思議,兩大不爭事實

      西甲焦點戰:巴薩2-0皇馬,三大不可思議,兩大不爭事實

      老皢尾聲體育解說
      2026-05-11 06:27:31
      吞自己的苦果!日媒稱:中國多所一流高校已經終止向日本派交換生

      吞自己的苦果!日媒稱:中國多所一流高校已經終止向日本派交換生

      凡知
      2026-05-09 12:38:17
      白酒大逃殺

      白酒大逃殺

      虎嗅APP
      2026-05-10 05:30:10
      深度 | 執政一年多,痛失約1500席,英國首相為何被選民狠狠“懲罰”?

      深度 | 執政一年多,痛失約1500席,英國首相為何被選民狠狠“懲罰”?

      上觀新聞
      2026-05-10 21:08:05
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      美國公開UFO文件 曹衛東:精心設計的戰略布局

      美國公開UFO文件 曹衛東:精心設計的戰略布局

      看看新聞Knews
      2026-05-09 23:44:08
      什么事讓你知道好言難勸該死的鬼?全族都沒攔住,父子倆終身殘疾

      什么事讓你知道好言難勸該死的鬼?全族都沒攔住,父子倆終身殘疾

      夜深愛雜談
      2026-05-01 10:49:01
      小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

      小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

      觀威海
      2026-05-10 20:02:09
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      “金正恩遇襲就自動核反擊”?朝鮮這條傳聞把全網嚇到了

      “金正恩遇襲就自動核反擊”?朝鮮這條傳聞把全網嚇到了

      桂系007
      2026-05-10 15:21:53
      世乒賽女團決賽:王曼昱為何2-3敗給張本美和?郭焱說出輸球根源

      世乒賽女團決賽:王曼昱為何2-3敗給張本美和?郭焱說出輸球根源

      體育大學僧
      2026-05-10 21:26:43
      新勢力還咋吹!曝特斯拉滿血FSD國內開測,連小鳥都能躲?

      新勢力還咋吹!曝特斯拉滿血FSD國內開測,連小鳥都能躲?

      小李車評李建紅
      2026-05-10 08:00:03
      2026-05-11 07:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      房產
      數碼
      教育
      本地
      公開課

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      數碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      教育要聞

      不愧是德國競賽題,這樣化簡想不到呀

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品高清国产三级囯产AV| 久久九九99这里有视频| 国产成人精品无人区一区 | 精品久久久久久无码专区不卡| 亚洲乱码二区| 精品日本一区二区三区在线观看 | 在线天堂最新版资源| 国产熟妇婬乱一区二区| 日韩福利视频导航| av美女网站| 国产又黄又硬又粗| 久久婷婷五月综合色精品首页| 国产日产欧产精品精品app| 欧美性猛交xxxx免费视频软件| 日本免费人成视频在线观看| 免费一区二区在线观看网站| 无码精品a∨在线观看中文| 天啦噜国产精品亚洲精品| 激情综合区| 精品视频一区二区三区不卡| 囯产精品久久久久久久久久| 精品熟妇av一区二区三区四区| 国产精品久久码一区二区| 久久久久成人片免费观看蜜芽| 啊av在线| 377人体粉嫩噜噜噜| 姝姝窝人体色WWW在线观看| 国产亚欧女人天堂AV在线| 情侣av在线| 一本无码av中文出轨人妻| 亚洲AV无码成人影片在线观看 | 国产偷窥女洗浴在线观看| 亚洲中字幕日产av片在线| 丝袜人妻无码专区视频| 思思久久96热在精品国产| 成人亚洲一区二区三区在线| 国产精品xxx| 国产精品自拍一区视频| 亚洲小说图区综合在线| chinese国产XXXX实拍| 国产在线精品成人一区二区|