![]()
一年一度的谷歌I/O大會,重磅來襲。
![]()
谷歌官方這次一口氣發布了24篇I/O相關公告,信息量很大,但主線并不復雜:底層模型更新到Gemini 3.5,并推出面向視頻和多模態創作的Gemini Omni;用戶入口上,Gemini App開始往個人助理方向走;搜索開始加入更多AI模式和智能體能力;購物、辦公、開發工具也都被重新接入Gemini;硬件上,谷歌還展示了搭載 Gemini 的智能眼鏡。
重點在于,今年不僅有模型能力的提升,谷歌還把Gemini塞到了各種地方。
從搜索框,到購物車,再到智能眼鏡……谷歌正在用AI接管一切。
我們整理了這次大會上最值得關注的10個新東西,一起來看:
01
Gemini 3.5:迄今為最強的編碼、智能體模型
先來看備受關注的底層模型。
這次谷歌發布了Gemini 3.5系列,首發的是Gemini 3.5 Flash,3.5 Pro還在內部使用,計劃下個月推出。
雖然3.5 Flash名字里還是Flash,但它的定位已經不只是“快”和“便宜”,可以說,它是谷歌這次所有Agent產品的發動機。
3.5 Flash面向的是編碼、智能體任務和真實工作流,已經進入Gemini App、Google Search的AI Mode、Google Antigravity、Gemini API、Android Studio,以及企業平臺。
跑分方面,Gemini 3.5 Flash在編碼能力、Agent能力、工具調用能力上比3.1 Pro強了不少,但在Humanity's Last Exam和ARC-AGI-2上還是有所不足。
![]()
輸出速度上,比其它前沿模型快4倍,在人工智能分析指數中位列右上象限——意思是又快又強。
![]()
![]()
定價上,3.5 Flash輸入$1.50/百萬token,輸出$9.00/百萬token,比3 Flash貴了3倍,比3.1 Pro便宜40%。
![]()
官方給了幾個典型場景:比如開發應用、維護代碼庫、準備財務文件、整理非結構化資產、把舊代碼庫遷移到Next.js,甚至讓兩個agent合作,把AlphaZero論文讀完,再做出一個可玩的游戲。
![]()
在Gemini 3強大的多模態基礎之上,3.5 Flash可以生成更豐富、更具交互性的Web用戶界面和圖形。
它可以在不到一分鐘里生成6個不同的支付頁面,也可以一次做出64個分形圖案變體;用戶只要用文字描述一個想法,它就能生成可互動的網頁組件。
更復雜一點,它還能把論文、課程視頻變成互動式學習卡片和可視化頁面,甚至在Google搜索里,根據用戶的問題現場生成圖表、模擬器和沉浸式解釋界面。
![]()
以前大家對Flash類模型的印象是:便宜、快、適合輕量任務。但現在谷歌要表達的是,未來的Agent不可能每一步都調用最貴、最慢的大模型。真正能規模化跑起來的Agent,需要一個速度、成本和能力都比較平衡的模型。
這就是Gemini 3.5 Flash的位置。
02
Gemini Omni:谷歌版全模態生成模型
除了Gemini 3.5,這次谷歌還發布了一個更偏創作的新模型:Gemini Omni。
![]()
谷歌對它的定位是:can create anything from any input(從任何輸入,生成任何內容)。
當然,現在第一步還是視頻。之后谷歌還計劃支持圖片、音頻等更多輸出形式。
首個上線的是Gemini Omni Flash,已經向Google AI Plus、Pro和Ultra訂閱用戶開放,可以在Gemini App和Google Flow 中使用;YouTube Shorts和YouTube Create App也會免費接入。未來幾周,谷歌還會把它通過API開放給開發者和企業客戶。
Omni不是一個單純的文生視頻模型。它可以把文字、圖片、音頻、視頻一起作為輸入,然后生成一段完整視頻,并且支持對話式視頻編輯。
![]()
官方還展示了一個連續修改的例子:先生成一個小提琴手演奏的視頻,然后把小提琴手放進另一張圖片里的環境,再把小提琴變成透明,最后把鏡頭角度改成從小提琴手肩膀后方看。整個過程是一輪一輪接著改,而不是每次推倒重來。
谷歌還特別強調,Omni背后接的是Gemini的世界知識。它對重力、動能、流體這些物理效果有更好的理解,也可以把復雜概念做成解釋視頻。行動會產生后果,環境會對事件做出反應,敘事會按邏輯發展。
換句話說,谷歌想表達的是,AI視頻不是只能做炫酷短片,也可以變成一種知識表達工具。復雜概念、科學過程、教學內容,都可以被轉成更直觀的視頻。
和Seedance 2.0一樣,Omni也能多種參考素材來生成視頻,圖片、視頻、音頻、音樂都可以成為輸入。用戶可以讓它保留某張圖里的角色,借用一段視頻里的動作,再讓畫面跟隨音樂節奏變化,最后生成一段新的完整視頻。
官方還提到,用戶可以從已有素材出發:用草圖作為動作參考,把它變成真實影像;例如用視頻里的鯨魚游動動作,遷移到一種反光流體材料上;或者保留房間結構不變,只把植物變成半透明的發光植物,并讓螢火蟲和聲音節奏互動。
簡單點說,Omni想讓用戶能夠“把各種素材、風格、動作和聲音,重新組織成一個新視頻”。這對創作者很重要。
不過,看社群反應,它用起來并沒有Seedance 2.0出色……但這只是Flash版本的一個開始,對吧?
安全方面,Omni支持用戶創建自己的數字分身,也就是用自己的聲音和形象生成視頻。但谷歌強調,其他涉及改音頻、改語音的能力還在測試中,需要更謹慎地推出。所有Omni生成的視頻都會帶有不可見的SynthID數字水印,用戶可以通過Gemini以及Google搜索來驗證內容是否由Gemini Omni生成。
03
Gemini App:大更新
這次Gemini App也大改。
![]()
谷歌說,今年對Gemini App來說是“碩果累累的一年”。去年I/O時Gemini App有4億用戶,現在已經有超過9億月活,覆蓋230多個國家和70多種語言。
這次 Gemini App 的更新主要有幾個:
第一,接入Gemini 3.5 Flash。
第二,推出新的設計語言Neural Expressive。界面會更動態,有流體動畫、更鮮明的顏色、新字體、觸覺反饋。Gemini Live也被直接整合到Gemini,用戶可以從打字自然切到語音對話。谷歌還說,Gemini以后不只是給你一堵文字墻,而是會根據問題實時生成更適合的回答形式,比如圖片、交互時間線、旁白視頻、動態圖形等。這個新設計從今天起在Web、Android、iOS全球推出。
![]()
第三,Gemini App接入Gemini Omni,可以直接生成和編輯視頻。用戶可以上傳手機相冊里的素材,用模板、提示詞、背景替換、電影感變焦等方式做視頻。甚至可以創建自己的數字分身。
第四,是Daily Brief。它像一個早晨簡報Agent,你授權之后,它會在后臺看你的 Gmail、Calendar,把緊急郵件、接下來的日程、需要跟進的事項整理成一個早間摘要。它不只是總結,還會按你的目標排序,并建議下一步。Daily Brief從美國開始,面向Google AI Plus、Pro、Ultra用戶推出。
![]()
第五,也是最重要的,是Gemini Spark。
04
Gemini Spark:谷歌版24小時個人Agent
Gemini Spark是這次最值得單獨介紹的產品之一。
谷歌給它的定位是24/7 personal AI agent。也就是說,它可以在你授權下,持續幫你做事。
它運行在Gemini 3.5上,使用Antigravity harness,并且深度連接Gmail、Docs、Slides等工具。而且因為它是云端Agent,所以你關掉電腦、鎖上手機,它也可以繼續在后臺工作。
谷歌舉了幾個例子。
比如你可以讓它定期解析每月信用卡賬單,找出新增訂閱或者隱藏費用;或者教它檢查孩子學校郵件,把重要日期提取出來,每天發一份簡報給你和伴侶;再比如,你可以讓它從郵件和聊天記錄里的會議筆記中提煉信息,整理成Google Docs,再起草一封項目啟動郵件。
這是典型的Agent敘事:幫你跨應用完成一串動作。
這也是谷歌最有優勢、也最敏感的地方:它手里有Gmail、Calendar、Docs、Drive、Slides、Maps、YouTube、Search。只要用戶愿意授權,Gemini可以觸達的個人上下文,將成為一個非常龐大的生態。
當然,谷歌也在強調權限和安全。Spark需要用戶選擇是否開啟、連接哪些App;涉及花錢、發郵件等高風險動作時,會先詢問用戶。
這一功能本周先面向trusted testers,下周計劃作為Beta推給美國Google AI Ultra用戶。
05
macOS版Gemini:開始進入桌面工作流
Gemini App還有一個比較容易被忽略的更新:macOS桌面版。
谷歌說,Gemini的macOS App已經可以下載,接下來會把Gemini Spark帶到桌面端,讓它處理本地文件,并自動化桌面上的工作流。它還會加入新的語音能力:用戶可以對著屏幕說一段并不完整、夾雜著停頓和口頭禪的話,Gemini能根據屏幕上下文,把它整理成更準確的文本,并直接放到光標所在位置。
這件事看起來小,但也值得注意,因為Agent最終不可能只在網頁里工作。很多真實工作發生在本地:文件夾、桌面軟件、瀏覽器、多窗口、多文檔之間。谷歌把Spark帶到macOS,其實就是在往桌面Agent的方向走。
我們之前寫過一篇文章,說PC才是agent時代的頭號硬件,谷歌之前在The Android Show上發布的種種更適應真實工作流的軟硬件產品,和這件事也是互通的。
06
Google Search:搜索框25年來最大改版
這次最有象征意義的產品,還是Search。
![]()
谷歌說,AI Mode上線一年后,月活已經超過10億,查詢量每個季度翻倍。現在,谷歌把Gemini 3.5 Flash作為AI Mode的默認模型,并宣布對搜索框進行25年來最大升級。
新的搜索框不再只是輸入關鍵詞的小框,變成了一個AI入口。
![]()
它會動態展開,讓你用更自然的方式描述問題;它會根據意圖給出AI建議,不只是傳統自動補全;它支持多模態輸入,可以用文本、圖片、文件、視頻,甚至Chrome標簽頁作為輸入。
也就是說,搜索不再只是“給我十個鏈接”,變成了“我有一個問題、一段材料、一張圖、一個網頁上下文,你幫我理解并繼續往下走”。
另外,AI Overview 也可以更自然地接入AI Mode。用戶可以直接對AI Overview繼續追問,搜索會帶著上下文進入對話。這個體驗已經在桌面和移動端全球上線。
Search這次還有一個更Agent化的能力:Search agents。
谷歌說,用戶以后可以在Search里創建、定制和管理多個AI agents。第一批是information agents,信息型Agent。它們可以24小時在后臺監控你關心的信息,然后在合適的時候給你一份綜合更新。
這和Google Alerts很像,但更智能。
Google Alerts只能按關鍵詞訂閱。Search agents訂閱的是“你的意圖”。它不像爬蟲那樣只看某個詞有沒有出現,而是理解你到底要什么,然后跨網頁、新聞、社交、購物、體育、金融等信息源監控變化。
information agents今年夏天先給Google AI Pro和Ultra用戶推出。
此外,Search還在擴展agentic booking,也就是幫你完成預訂類任務。比如你要找一個周五晚上、能坐6個人、供應夜宵的私人KTV房間,Search會綜合價格和可用性,并給你直接完成預訂的入口。部分品類,比如家政維修、美容、寵物護理,用戶甚至可以讓Google代為給商家打電話。這些能力今年夏天在美國面向所有用戶推出。
另外,谷歌還把Antigravity和Gemini 3.5 Flash的編碼能力帶進了Search。目標是讓搜索結果不再只是文本、圖片、表格,而是根據你的問題即時生成合適的交互界面。
比如你想理解天體物理,或者想看手表內部怎么運轉,Search可以實時組裝交互視覺、表格、圖表、模擬器。這些generative UI能力今年夏天會免費開放給所有Search用戶。
更進一步,Search還可以為持續性任務生成mini apps。比如你在搬家、籌備婚禮、管理健康計劃,不是一次搜索就結束,而是一個長期項目。Search可以給你生成一個自定義dashboard或tracker,以后你可以持續回來用。
![]()
這非常像一個新的產品形態:搜索結果不再是網頁,變成了臨時生成的小工具。
07
Universal Cart:谷歌想做AI購物車
購物也是這次大會的大更新之一。
![]()
谷歌發布了Universal Cart,一個跨服務、跨商家的智能購物車。它可以出現在Search、Gemini、YouTube、Gmail里。用戶在搜索商品、和Gemini聊天、看YouTube、讀Gmail的時候,都可以把商品加入同一個購物車。
但它不是普通的購物車。
商品一加入購物車,它就會在后臺開始工作:找優惠、追蹤價格下降、查看價格歷史、提醒補貨。它還會用推理能力提前發現問題,比如你在不同零售商那里買電腦配件,它會提醒你哪些零件不兼容,并推薦替代方案。
![]()
因為它基于Google Wallet,還能理解你的支付方式權益、會員信息、商家優惠,幫你找到隱藏折扣或者積分機會。
結賬時,Universal Commerce Protocol會讓用戶用Google Pay快速完成購買,或者把商品轉到商家網站繼續下單。
谷歌提到,Nike、Sephora、Target、Ulta Beauty、Walmart、Wayfair,以及Shopify 上的Fenty、Steve Madden 等品牌會參與相關結賬能力。Universal Cart今年夏天會先在美國的Search和Gemini App推出,之后進入YouTube和Gmail。
谷歌還提到Agent Payments Protocol,AP2。它的目的是讓Agent代表用戶安全付款。用戶可以給Agent設定嚴格邊界,比如只能買哪些品牌、哪些產品、最多花多少錢。AP2會在用戶、商家、支付處理方之間創建可驗證的記錄,讓Agent的購買行為有邊界、有憑據、有追蹤。谷歌說,AP2會在未來幾個月進入Google產品,首先從Gemini Spark開始。
不過……購物也就算了,誰會想讓AI幫你一鍵付款呢。
08
智能眼鏡:Google Glass的AI時代重啟
硬件側最值得關注的是智能眼鏡。
![]()
以前Google Glass確實做得挺爛的,甚至能算是硅谷硬件史上“技術很酷,但產品沒想明白”的典型案例。
這次和當年Google Glass最大的不同是產品邏輯換了。Google Glass像是把手機通知、拍照、導航這些功能,硬塞到眼前,但這次的Gemini智能眼鏡更像是:讓AI隨時看見你看到的東西、聽見你聽到的東西,然后幫你理解和處理。
也就是說,它不再只是“戴在臉上的小屏幕”,變成了一個更自然的AI入口。
在今年的I/O大會上,谷歌分享了更多關于智能眼鏡的信息:這種眼鏡可以在不打斷你的情況下,即時提供幫助。
智能眼鏡分為兩種:一種是音頻眼鏡,可以在你的耳朵里提供語音幫助;另一種是顯示眼鏡,可以在你需要的時候立即顯示所需信息。這兩種眼鏡都能讓你解放雙手,專注于其他事情,只需開口詢問,即可獲得Gemini的幫助。
音頻眼鏡會先上市,今年秋天推出。
![]()
![]()
樣子看起來,怎么說,挺日常的。
功能上,它可以通過“Hey Google”或者輕觸鏡腿喚起Gemini。用戶可以問它眼前看到的東西,比如路過一家餐廳,問它評價怎么樣;看到一塊云,問這是什么云;看到復雜停車標志,讓它幫你解釋。
它還支持導航,也可以接電話、發短信、總結錯過的消息、播放音樂;可以拍照和視頻,并用Nano Banana做圖像編輯,比如拍完照直接說“給每個人戴上搞笑帽子”;還能實時翻譯語音和文字,翻譯語音時甚至會盡量匹配說話人的語氣和音高。眼鏡也可以連接 Uber、Mondly等手機應用,并同時支持Android和iOS。
雖然不好說實際使用效果如何,但這次至少避開了Google Glass當年的幾個坑:
不再把眼鏡當成微型手機,核心不是通知和小屏幕,而是Gemini對現實世界的理解和任務執行;不再一上來押注重AR,先推音頻眼鏡,降低硬件難度和社會接受門檻;不再忽視外觀,找Gentle Monster和Warby Parker,承認眼鏡是時尚消費品,不是純科技產品。
畢竟當初Google Glass長這樣:
![]()
場景也更清楚了。導航、翻譯、識別眼前事物、總結消息、拍照編輯、叫車點單,這些都更接近“我為什么要戴它”。
09
Google Antigravity 2.0:開發者側的Agent工作臺
開發者側,最重要的是Google Antigravity 2.0。
谷歌把它稱為agent-first development platform。也就是說,它不是普通 IDE 插件,而是一個以Agent為中心的開發平臺。
這次I/O大會發布了Antigravity 2.0桌面應用、Gemini API里的Managed Agents,以及AI Studio的原生Android vibe coding。
過去AI編程工具的核心是“幫你補代碼、寫函數、解釋報錯”,現在谷歌想做的是“從prompt到生產就緒app”,也就是你給一個目標,AI就能規劃、拆任務、調用工具、跑測試、修bug、部署,并且可能讓多個子Agent并行工作。
這和Codex、Claude Code、Cursor競爭的是同一條賽道。谷歌的優勢在于它不只有模型,還有Android、Firebase、Cloud、Workspace、Play Store、Search、Chrome 等完整生態。
10
Project Genie + Street View:世界模型開始連接真實街景
另一個偏前沿的產品是Project Genie。
![]()
Genie是Google DeepMind的通用世界模型,可以生成多樣化、可交互的環境。谷歌說,它已經成為研究工具,可以讓Agent在復雜虛擬環境中學習和推理,也幫助Waymo(Alphabet旗下的自動駕駛公司)模擬高真實度道路環境。
這次的新能力,是把Genie和Google Street View連接起來。
也就是說,Genie 的生成能力開始和Google近20年街景圖像結合,讓模型生成的環境可以錨定真實世界。谷歌說,這可以為AI agents或機器人提供虛擬環境,讓它們在其中導航、互動、學習現實世界的復雜性。
機器人和自動駕駛需要大量真實世界數據,但現實世界測試昂貴、危險、慢。世界模型可以提供虛擬訓練場;而Street View則是谷歌獨有的數據資產。二者結合,意味著谷歌可以把真實街景變成可交互的模擬環境。
換句話說,Project Genie是谷歌把“地圖資產”變成“AI訓練環境”的嘗試。
11
總結
今年Google I/O不是一個單點發布會,而是一次生態鋪開。
模型層,谷歌發布Gemini 3.5和Gemini Omni。前者面向行動和 Agent,后者面向全模態生成和視頻編輯。
產品層,Gemini被塞進Search、Workspace、Shopping、Flow、AI Studio、智能眼鏡。它不再只是一個App,而是Google產品體系里的統一智能層。
商業層,谷歌開始把Agent落到真實任務上:幫你盯信息、訂服務、管購物車、處理郵件、寫文檔、做App、生成視頻、甚至輔助科研。
這次大會的一個明顯趨勢是,谷歌正在把Gemini改造成Google生態的操作系統。
過去的Google,是一個你主動使用的工具箱,你可以用它搜索、發郵件、寫文檔……現在,谷歌想讓Gemini站在這些工具之上,理解你的意圖,調用這些工具,替你完成一串動作。
今年I/O的發布看起來特別多、特別散:搜索、購物、辦公、視頻、眼鏡、開發、科研,幾乎每條線都在講AI,它們指向的其實是同一件事:
谷歌想要證明,自己仍然擁有把AI變成日常入口的最大生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.