<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      劈柴哥把谷歌AI 芯片「劈」成兩半,要硬剛英偉達了

      0
      分享至

      強如谷歌,算力也不夠了。

      在昨天拉斯維加斯的谷歌 Cloud Next 大會上, CEO 劈柴哥 (Sundar Pichai) 透露了令人震撼的數字:

      Gemini API 上個季度每分鐘處理 100 億 token——僅僅過去一個季度,就漲了足足60%,現在每分鐘處理超過 160 億 token。


      增量很大程度上來自 agent 使用場景。一個任務被拆成十幾步,每一步都是上下文讀取,都是 API 請求,都在輸入和輸出 token。如果說簡單的 chat 模式就是一來一回,那 agent 的到來讓一切都變了,變成了一臺「大電腦」帶著一群「小電腦」在給你干活。

      推理成本曲線也顯著攀升了……

      為了解決這個問題,谷歌開發出了新的一代 TPU(Tensor Processing Unit 張量計算單元):

      第 8 代 TPU 首次被拆成兩顆芯片,專門用來訓練的 8t,以及專門用來推理的 8i。


      圖片來自 Pichai 個人推特

      這是 TPU 項目十年來,第一次在產品定義上做出這種分野,也是谷歌在自研芯片上第一次,在規格上正面站到競爭對手英偉達 Rubin 的對面。

      但首先我們要回答這個問題:

      為什么要拆開?

      TPU 過去有過分檔。2023 年 12 月的 v5p 是訓練旗艦,更早的 v5e 是推理性價比款,兩顆芯片同架構、不同裁剪。但是到了 2024 年的 Trillium(v6),和 2025 年 Ironwood(v7),TPU 又回到「一顆打天下」的產品先。

      第 8 代直接把訓練和推理拆成兩顆獨立設計的 die,背后的判斷是:agent 時代的訓練和推理,已經長成了兩種截然不同工作負載。

      訓練任務的算力負載,可以理解為「大洪水」:不經常來,但一來就是排山倒海的流量。一次前沿模型訓練持續數周,橫跨萬卡規模,對單芯片峰值和故障域規模很敏感。

      推理的算力負載,雖然更加「細水長流」,但正如文章一開頭提到的,也因為 agent 的普及發生了巨變。

      這里英偉達在 GTC 2026 大會上給過數據參考:從 ChatGPT 出現到 Claude Code 流行起來的兩年里,推理算力需求漲了一萬倍,token 需求自 2024 年 12 月以來也增長了 28 倍。當推理開始以這個量級增長,agent 之間的交互又把 MoE 架構的路由工作,和長思維鏈推向極致。

      一顆芯片同時服務兩種負載就開始吃虧。


      訓練芯片要的是單位面積里更多的算力密度,和更大的規模化。推理芯片的訴求完全不同:片上存儲要大到塞得下越來越大、越來越多的 KV cache,延遲要低到用戶可以接受。

      正如 Pichai 在這次大會上演講里所說的:「問題已經從『能不能造一個 agent』,變成『怎么管好幾千個』。」


      8t:一顆不追求單卡冠軍的訓練芯片

      先看硬指標。8t 單顆芯片能跑出 12.6 PFLOPS 的 FP4 算力,配 216 GB HBM3e 顯存、6.5 TB/s 帶寬。這個水平在今天的 AI 芯片里并不算頂,換個口徑看甚至偏保守。NVIDIA 今年要上的 Rubin,單卡 FP4 算力大約 50 PFLOPS,顯存 288 GB、帶寬沖到 22 TB/s——單卡性能將近 8t 的四倍。

      但是,谷歌在這里并沒有要跟英偉達拼單卡,而是把押注 TPU 8t 的規模化維度。簡而言之:TPU 8t 的單個「superpod」集群可以塞進 9600 枚 8t,且共享 2PB 內存,聚合算力高達 121 Exaflops。而英偉達的 Rubin NVL72 只有 72 顆 GPU,預計 2027 年底的 Ultra NVL576 機架只有 576 顆。

      換句話說,在同一個「訓練作業可以平鋪多大」的維度上,谷歌領先 NVIDIA 超過一個數量級。


      這件事對訓練的意義是什么?訓練一個前沿大模型要跑數周,每天都在重復同一件事:幾千上萬顆芯片一起算一步、然后把結果對齊,再算下一步。每次對齊都是一次「大家停下來等最慢的那個」。

      而芯片越多、拓撲越平攤,整個集群就能越穩地往前推,少掉單卡峰值高不高反而沒那么重要。谷歌給出的對比數據也是這個方向:相比上一代 Ironwood,8t 整 pod 算力接近 3 倍,同樣花一美元能買到 2.7 倍的訓練性能,每瓦性能最多 2 倍。存儲這一端靠 TPUDirect 讓顯存直通硬盤,數據讀取比上代快 10 倍。整個集群 97% 以上的時間都能花在真正的有效訓練上,這在萬卡級別已經很夸張。

      換個角度理解這條路線的分歧:NVIDIA 像在造超級跑車,每一代都追求單車速度極限;谷歌更像在修一條八車道高速,單輛車不一定快,但總吞吐量可以拉到對手難以企及的規模。

      SemiAnalysis 此前對上一代 Ironwood 的判斷是,單芯片已經在顯存、帶寬、算力上追平 Blackwell,只落后大約一年。8t 沒打算在單卡這邊追平,它直接去搶一個 NVIDIA 當下還夠不到的維度。

      8i:把 KV Cache 整個塞進芯片在推理芯片 8i 上,它的 288 GB HBM 顯存配 8.6 TB/s 帶寬,顯存比 8t 還多 72 GB、帶寬還高三成。它還配備了 384 MB 的片上 SRAM,是上一代 Ironwood 的 3 倍。

      8i 的單卡 FP4 算力 10.1 PFLOPS,比 8t 略低,低在谷歌認為推理不需要那么多算力峰值。


      SRAM 是芯片上最快、也最貴的那塊內存。過去這種「寸土寸金」的內存只有幾十 MB,主要拿來緩存中間結果。8i 把它做到 384 MB,目的就是把大模型推理時最關鍵的 KV cache 能夠整塊塞進芯片。

      如果你不知道 KV cache 是什么,可以簡單將它理解為模型讀長上下文時累積下來的「臨時記憶」,過去它存在 HBM 顯存里,吞吐的時候都要讀取讀一遍,推理速度相當一部分卡在這個搬運上。

      而塞進 SRAM 之后,讀寫距離從「幾米遠的倉庫」縮到「桌上的筆記本」,長上下文推理的效率直接上一個臺階。

      再看 8i 真正的大招:它放棄了 3D Torus,也就是 TPU 從第二代用到現在的那個「每顆芯片只跟鄰居說話」的網絡拓撲。

      3D Torus 擅長的是規律通信,適合訓練任務(所有芯片一起做同一件事)。然而推理的需求是反過來的:一個 MoE(混合專家網絡)模型的工作過程中,每次吞吐可能都要激活不同的專家網絡,讓任意兩顆芯片之間突然要通話。放在 3D Torus 上,這意味著消息要一跳一跳傳過去,跳數多的路徑,會拖慢整條推理鏈。

      8i 換上的新拓撲叫做 Boardfly。簡單說,4 顆芯片組成一個小單元,8 塊板拼成一個組,36 個組再通過光開關連起來,按照 1024 枚芯片的最高集群數量來計算,兩顆最遠芯片之間的跳數可以從 3D Torus 的 16 跳壓到 Boardfly 的 7 跳,網絡直徑減少 56%,通信延遲最多降一半。

      在同等成本下,8i 在低延遲、大 MoE 場景下,每美元推理性能比 Ironwood 提升 80%。用谷歌自己的話說,「客戶花同樣的錢,可以服務接近兩倍的流量」。


      拿這套東西跟 NVIDIA 對比起來,畫面大概是這樣的:

      NVIDIA 的推理旗艦是 NVL72 機架,72 顆 Blackwell/Rubin 芯片通過 NVLink 連接,它的思路是「每顆都很強,擠在一起更強」。8i 反過來:單卡算力克制,但一個 pod 集群直接內嵌上千顆芯片,再把跳數/對話延遲壓到極低。

      對于當今 agent 時代的典型推理負載,也即「成千上萬個 agent 同時在后臺互相傳話」,8i 的設計聽上去比英偉達當前的方案更加合理。

      畢竟,推理專用芯片真正要解決的,說是讓每個 token 變便宜。至于比上一代快多少,反而沒那么重要——至少谷歌是這么認為的。

      TPU + NVIDIA = Virgo

      谷歌還發布了一個全新的數據中心網絡結構技術 (fabric),叫做 Virgo。

      你可以把它理解為一條巨型數據中心的「高速公路」,專門跑在 AI 芯片之間。一張 Virgo 能掛 13.4 萬顆 8t,對分帶寬 47 Pbps。再加上谷歌自家的 Pathways 和 JAX 軟件層,多個 Virgo 可以拼成一個 100 萬顆 TPU 的單一訓練集群。

      Anthropic 去年跟谷歌簽下的那份最多 100 萬顆 TPU、超過 1 GW 電力的大單,就是建立在這個數字之上。今年 4 月,Anthropic 又和谷歌、博通 一起把這份合約擴到了 3.5 GW。

      更有意思的是,同一套 fabric 也能掛英偉達的 Rubin 顯卡,最高支持 96 萬顆 GPU。也就是說,谷歌非常清楚大家對英偉達的算力還是有需求的。客戶在 Google Cloud 上照樣買得到 Rubin 實例,TPU 8t 和 8i 只是算力菜單上新加的兩道菜,而 Virgo 能夠同時給用戶提供「best of both worlds」。


      知名分析師 Ben Thompson 今年寫過一篇分析,指出 TPU 的硬件和軟件棧都比英偉達更加「專用」,英偉達更加靈活。

      2025 Q4,谷歌云營收 177 億美元,同比增長 48%;手里的待履行合同高達 2400 億美元,同比翻倍。管理層在財報會上直說 2026 年的算力還是不夠用。客戶要的算力已經溢出任何一家芯片廠商的產能,誰的卡都不嫌多。

      這種時候,把所有能插電的算力都接進同一張網,比站隊更加實在。

      TSMC 2nm 大規模量產的窗口在 2027 年底,谷歌說 8t 和 8i 會在「今年內」正式上線,但這個「今年內」大概率是小批量可以通,真正的大規模出貨要等到 2027。

      至少對于谷歌最大客戶之一的 Anthropic 來說,目前的主力算力來源仍然是英偉達的 GPU,以及上一代 TPU。

      TPU,你嘛時候能決戰英偉達呢?

      英偉達的護城河仍然存在。CUDA 生態已經積攢了十幾年的人氣,幾乎所有開源模型、推理框架、依賴庫都繞不開它;而在 TPU 這邊,谷歌通過 JAX、Pathways、XLA 等技術,提供了替代方案,但也只是把路趟出來了。

      要讓習慣于 CUDA 的開發者,以及他們背后的巨頭公司們轉投 TPU,仍然有很大的坎。

      有趣的是,業界巨頭們已經開始對 TPU 提高興趣了:據 SemiAnalysis 的報告,OpenAI 在跟英偉達購置算力談條件的時候,提過 TPU 這檔子事;而英偉達為了讓 OpenAI 不從谷歌那邊采購 TPU 算力,硬生生讓出了 30% 左右的合同價格。

      這么看,TPU 雖然暫時沒賺到 OpenAI 的錢,至少把對手的利潤率壓下去不少……

      英偉達的思路還是「核彈」的思路:把單卡,把連通性 (networking) 做到極致。而谷歌在這些方面也已經后來趕上。但今時今日,最大的問題可能不是性能本身,而是 token 經濟學里面的更關鍵要素:電費、時延等等。

      就連谷歌自己的高管也說:在今天的數據中心里,真正卡脖子的不只是芯片,還有電。

      所以 TPU 什么時候能真刀真槍地決戰英偉達?恐怕今年還不行,明年也懸,但它已經在另一條戰場上開始扳動一些東西了。

      真正被挑戰的,可能也不只是英偉達,還有過去幾年整個行業默認的真理:算力能解決所有問題。


      文|杜晨

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      “存款搬家”了嗎?多家銀行定期存款占比繼續攀升,業內:最多不同銀行之間遷移

      “存款搬家”了嗎?多家銀行定期存款占比繼續攀升,業內:最多不同銀行之間遷移

      財聯社
      2026-05-11 10:06:19
      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      大漢體育解說
      2026-02-09 13:07:34
      15死33傷!以色列不宣而戰,伊朗最高領袖下令,普京:美國已反悔

      15死33傷!以色列不宣而戰,伊朗最高領袖下令,普京:美國已反悔

      探史
      2026-05-11 10:30:30
      老板娘問我她屁股翹不翹?我該怎么回答?

      老板娘問我她屁股翹不翹?我該怎么回答?

      太急張三瘋
      2026-05-11 08:47:21
      自稱中立國卻斷供中國機床?瑞士如今訂單暴跌,中國反超打臉西方

      自稱中立國卻斷供中國機床?瑞士如今訂單暴跌,中國反超打臉西方

      混沌錄
      2026-05-05 14:00:12
      吞自己的苦果!日媒稱:中國多所一流高校已經終止向日本派交換生

      吞自己的苦果!日媒稱:中國多所一流高校已經終止向日本派交換生

      凡知
      2026-05-09 12:38:17
      中超最佳跳槽!拜合拉木轉會蓉城隊后大爆發,奪冠軍已無懸念

      中超最佳跳槽!拜合拉木轉會蓉城隊后大爆發,奪冠軍已無懸念

      何老師呀
      2026-05-10 14:44:22
      你以為麻豆傳媒是賣片的,其實它是賣人的

      你以為麻豆傳媒是賣片的,其實它是賣人的

      創始人筆記
      2026-04-23 21:44:50
      漢坦病毒真正“零號地”曝光,荷蘭觀鳥夫婦并非在垃圾填埋場感染

      漢坦病毒真正“零號地”曝光,荷蘭觀鳥夫婦并非在垃圾填埋場感染

      一葉禪林
      2026-05-10 19:10:50
      53歲葉檀談身后事:沒有子女上億家產留給誰?網友:還是得結婚生子

      53歲葉檀談身后事:沒有子女上億家產留給誰?網友:還是得結婚生子

      白淺娛樂聊
      2026-05-11 12:16:07
      明知是飲鴆止渴,唐朝為何非要搞節度使?

      明知是飲鴆止渴,唐朝為何非要搞節度使?

      輿圖司馬
      2026-05-10 21:00:03
      結婚的時候,為什么總有人在乎對方是不是“處男處女”?

      結婚的時候,為什么總有人在乎對方是不是“處男處女”?

      舒山有鹿
      2026-05-11 12:48:00
      漢坦病毒mRNA疫苗全球研發緩慢,中國相關滅活疫苗已上市20年

      漢坦病毒mRNA疫苗全球研發緩慢,中國相關滅活疫苗已上市20年

      紅星新聞
      2026-05-09 17:39:29
      黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發現全是錯覺

      黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發現全是錯覺

      顧史
      2026-04-18 09:17:19
      名場面爆紅!文班亞馬肘擊里德被驅逐,哈珀震驚表情包爆紅網絡

      名場面爆紅!文班亞馬肘擊里德被驅逐,哈珀震驚表情包爆紅網絡

      夜白侃球
      2026-05-11 11:20:00
      蘋果 iPhone Air 又降價,再次刷新歷史!

      蘋果 iPhone Air 又降價,再次刷新歷史!

      XCiOS俱樂部
      2026-05-10 20:23:44
      原來董卿這么強壯,密春雷爭議已4年,沒想到她會以新姿態出現

      原來董卿這么強壯,密春雷爭議已4年,沒想到她會以新姿態出現

      開煙酒店的明哥
      2026-05-10 21:01:44
      凱越最大的敗筆,不是沒留住張雪,而是連他36%的股份都吞完!

      凱越最大的敗筆,不是沒留住張雪,而是連他36%的股份都吞完!

      白淺娛樂聊
      2026-05-11 01:58:51
      韓國貨輪在波斯灣爆炸,特朗普借題發揮要求出兵,李在明如履薄冰

      韓國貨輪在波斯灣爆炸,特朗普借題發揮要求出兵,李在明如履薄冰

      晨楓老苑
      2026-05-10 11:44:56
      2026-05-11 13:32:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6366文章數 26832關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      手機
      健康
      本地
      藝術
      公開課

      手機要聞

      榮耀600系列開啟全渠道預約 幸運星設計實錘了

      干細胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      2026中央美術學院博士生畢業作品選

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕精品久久久久人妻红杏1| 人妻中文乱码在线网站| 亚洲AV综合色区| 国产精品美女久久久久av超清| 国产成人久久| 亚洲欧洲中文日韩久久AV乱码| 亚洲天天做日日做天天谢日日欢 | 日韩最新中文字幕| 中文字幕亚洲综合久久综合| 亚洲婷婷丁香激情| 女人与公人强伦轩| 日本一卡二卡不卡视频查询| 国产亚洲精品福利在线无卡一| 麻豆精品一区二区三区蜜桃| 国产成人久久久777777麻豆| 宅男aV一区二区三区| 中国国产高清免费AV片| AV无码一区二区三区国产| 国外亚洲成av人片在线观看| 国产成人精品午夜福利| 99国产综合精品-久久久久| 国产亚洲色欲色一色www| 国产精品免费中文字幕| 人妻三级AV| 亚洲A片在线观看网| 波多野结衣一区二区三区视频| av中文字幕网站| 久久久噜噜噜www成人网| 日本高清免费AAAAA大片视频| 日本女V片| 成人内射国产免费观看| 欧美性猛交xxxx免费看| 麻豆一区二区三区精品蜜桃| 欧美亚洲人成网站在线观看| 国产永久在线视频| 日B免费视频| 尤物视频网| a国产在线v的不卡视频| 亚洲男人精品青春的天堂| 国产一区二区在线视频观看| 亚洲国产午夜精品理论片在线播放|