網易首頁 > 網易號 > 正文申請入駐

谷歌 Gemini 3 深夜炸場：沒有懸念的最強 AI

2025-11-19 02:39:57　來源: 極客公園

北京舉報

分享至

新王登基了。

作者｜Li Yuan

來了。

預熱了快一個月的 Gemini 3 Pro，就在剛剛，正式在 Google AI Studio 上線 Preview 版，API 也同步開放。接下來將陸續上線Google的各項產品中。

沒有任何多余的廢話，打開 Model Card，滿眼寫著的只有兩個字：碾壓。

按照 Google 披露的測試數據，Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的「地獄模式」MathArena 里，當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時，Gemini 3 Pro 直接干到了23.4%。

編程能力方面，雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分，在工具調用和終端操作基準測試中更是名列第一。

真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%，是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子，它將徹底重塑 AI 操作計算機的模式。

但這還沒完，Google 今晚還順手扔出了一個小王炸：自家的 Agentic 編程平臺——Google Antigravity。

此前網傳 Gemini 3 能實現「端到端編程」，大家以為是模型成精了。但看起來，并不是模型成精，而是 Google 正在探索如何用更好的系統工程實現端到端編程。

如果說 Cursor 是目前最強的「外骨骼」，它通過 AI 補全讓你寫代碼更快；那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器，而是一個智能體優先（Agent-first）發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型，它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI，發現報錯自己修。

不講故事，只拼肌肉。

Google 用這一波硬核發布宣告：新王已至。

有趣的是，這次連 Sam Altman 都獻上了自己的點贊。：）

霸榜的暴力美學：不止是智商洗榜，更是 Agent 能力的變化

在 AI 圈子里，大家習慣了模型之間你追我趕的微弱優勢，但 Gemini 3 Pro 拋出的這份成績單，可以說十分耀眼。

根據 Model Card 披露的數據，Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基準上，實現了全方位的霸榜。

讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam（人類最終大考）。這是一個衡量學術推理極限的標尺，GPT-5.1 在此前的測試中得分為 26.5%，Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面，這 10 個百分點的差距，意味著模型在處理復雜學術問題時，已經具備了完全不同的理解深度。

但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think（深度推理模式），在不使用任何工具的情況下，它在 HLE 上的得分進一步飆升至41.0%。看起來人類最后的堡壘也并不能持續很久了。

數理方面的每一個領域，都能看出它的統治力。

AIME 2025（美國數學邀請賽）：配合代碼執行（Code Execution），Gemini 3 Pro 的準確率達到了驚人的100%。沒錯，是滿分。即便是「裸考」（無工具模式），它也有 95.0% 的準確率（相比之下，GPT-5.1 為 94.0%，Claude Sonnet 4.5 為 87.0%）。

MathArena Apex（數學競賽地獄模式）：當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時，Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領域，Gemini 3 已經開始解題了。

而更關鍵的是 Agent 相關能力的提升。

Gemini 一向在多模態能力上領先，這一代更是專門優化了屏幕理解（Screen Understanding）。這是下一代 Agent 能否真正接管人類電腦的關鍵。

看ScreenSpot-Pro這一欄數據：

GPT-5.1：3.5%（這基本意味著它是個「瞎子」）。
Gemini 3 Pro：72.7%。

這是近乎20 倍的能力碾壓！這標志著 Gemini 3 Pro 已經不再是一個單純的對話框，它具備了真正意義上的「視覺智能」，能夠像人類一樣理解復雜的操作系統界面。

在一些傳統強項上，Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的「原生支持」、長視頻和多語言處理等等。

有一個很有趣的標準也被 Google 掛了上來：在一個模擬開店賺錢的基準 Vending-Bench 2 上，Gemini 3 Pro 最終賺取了$5,478.16的凈資產，而 GPT-5.1 僅賺了 $1,473.43。

不過關于之前網傳「徹底端到端終結程序員」的編程能力，Gemini 3 Pro 的狀態是在 AI 屆頂尖，但并沒有「顛覆編程」。

在衡量軟件工程能力的SWE-Bench Verified測試中，Gemini 3 Pro 得分為76.2%，雖然很強，但并未超越 Claude Sonnet 4.5（77.2%）拿到 SOTA。這意味著在處理超長程、極其復雜的后端邏輯時，它依然有局限性。

這也很合理。每一個大模型目前都在全力卷編程的情況下，想要在這個領域一騎絕塵確實比較難。

目前 Gemini 的能力更偏向于，還不能幫你重構整個后端架構，但如果你想寫一個極具現代設計美學的網站、一個 3D 飛船游戲，或者生成復雜的 SVG 交互動畫，它能通過一次提示就給出極其驚艷的、可直接運行的結果。

Antigravity，Agentic 編程的探索

有了最強的模型和算力，谷歌開始在應用層「掀桌子」了。今晚，谷歌扔出了一個「小王炸」——Google Antigravity。

前一陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢，而 Google 這次則這么快的就發了自己的開發平臺。

這不僅僅是一個新的 IDE，它是谷歌定義的Agent-first（智能體優先）開發平臺。在這里，開發者從「碼農」升級為「架構師」，而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的「執行合伙人」。

為了達成這種體驗，谷歌甚至在后臺配置了一個「模型軍團」協同作戰：

Gemini 3：作為大腦，負責高級推理和代碼編寫。
Gemini 2.5 Computer Use：作為手眼，專門控制瀏覽器進行 UI 驗證和測試。
Nano Banana：作為美工，負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗，對于 Cursor 等現有 AI 編輯器來說，無疑是一次降維打擊。

Antigravity 最有趣的能力在于并行。官方材料明確提到，開發者可以與多個智能 Agent 協作，而這些 Agent 能夠代表你同時自主規劃并執行復雜的端到端軟件任務。

想象一下這種工作流：你下達一個指令，Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫后端邏輯，Agent B 負責在終端跑測試用例，Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖，像是一個配合默契的敏捷開發小組，而你只需要驗收它們提交的「工件」。

Antigravity 是是一個免費平臺，網絡上目前對于 Antigravity 的使用體驗不多，但基本上都是好評。

要達到替代 Cursor 本身，肯定不太行——端到端的復雜編程體驗，肯定還需要模型更成熟。但是簡單的項目進行編程，或許會更簡單了。

全家桶齊發力：TPU 與搜索

在大模型發展的后半程，比拼的不再是單一算法的靈光一閃，而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利，有一點是很特別的：Gemini 3 Pro 是使用 Google TPU 訓練的。

當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時，谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計，擁有極高的高帶寬內存（HBM），這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余，給了 Gemini 3 Pro 肆意擴張參數規模的底氣。

有了算力，還要有「燃料」。Gemini 3 Pro 的訓練數據是全維度的覆蓋：它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是，谷歌明確提到使用了User Data（用戶數據）——當然是在隱私協議框架下，來自谷歌龐大產品生態的用戶交互數據。

最后，這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當你搜索一個復雜概念（比如 RNA 聚合酶的工作原理）時，Gemini 3 不再是給你扔一堆冷冰冰的鏈接，而是利用其強大的推理能力，即時生成（Generated on the fly）一個沉浸式的互動圖表或模擬工具。

從底層的 TPU 硅基霸權，到中間層的模型智能，再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這一夜展示的，不僅僅是一個滿分模型，而是一個只有巨頭才能構建的、嚴絲合縫的未來。

實測體驗

最后讓我們看看網上的一些實測體驗吧。

出名的六邊形測試的升級款。

不少帖子提及了設計上的美感。

一些物理世界的建模。

前面提到的，Gemini 對于用戶界面數據這塊做了特別的優化。

開發應用。

在今天，大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基準測試，其測量精度也開始失效。如何科學地量化模型之間的微妙差距，已經成為了一門專門的「量化科學」，僅憑用戶簡單的實測手感，很難窺見其中的全部玄機。

實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。

Gemini 3 顯然在這次的更新中，在直出的情況下，贏面很大。

當模型直出能力越來越好，對于開發者來說，未來更多的是要看你的品味能不能跑過模型，你的點子是不是足夠與眾不同了。

*頭圖來源：視覺中國

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你覺得人類的審美跑的過

AI 的直出審美嗎？

扎克伯格：傲慢就會失敗，創造應該服務群眾

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.