Google在Cloud Next '26大會(huì)上發(fā)布了兩項(xiàng)GKE核心更新:GKE Agent Sandbox和GKE Hypercluster。前者解決AI Agent的安全隔離問(wèn)題,后者試圖用單一控制平面管理百萬(wàn)級(jí)加速器芯片。Google Kubernetes Engine產(chǎn)品管理高級(jí)總監(jiān)Drew Bradstock與GKE產(chǎn)品組經(jīng)理Gari Singh在官方博客中寫(xiě)道:"Kubernetes已迅速成為AI時(shí)代的操作系統(tǒng),GKE目前為平臺(tái)上所有前50大客戶(hù)運(yùn)行AI工作負(fù)載,包括最大的前沿模型構(gòu)建商。"
這個(gè)定位背后是一組行業(yè)數(shù)據(jù)。Databricks統(tǒng)計(jì)顯示,多Agent AI工作流近期激增327%;CNCF數(shù)據(jù)則表明,66%的組織現(xiàn)在依賴(lài)Kubernetes來(lái)運(yùn)行生成式AI應(yīng)用和Agent。Google顯然想抓住這個(gè)窗口期,把容器編排的基礎(chǔ)設(shè)施優(yōu)勢(shì)延伸到AI Agent層。
![]()
GKE Agent Sandbox的技術(shù)方案是用gVisor實(shí)現(xiàn)內(nèi)核級(jí)隔離。gVisor是Google自研的沙箱技術(shù),Gemini也在用。核心場(chǎng)景是"不可信Agent代碼執(zhí)行"——當(dāng)AI Agent需要調(diào)用外部工具、執(zhí)行用戶(hù)上傳的代碼或訪問(wèn)敏感數(shù)據(jù)時(shí),傳統(tǒng)容器隔離可能不夠。gVisor通過(guò)攔截系統(tǒng)調(diào)用、提供自己的內(nèi)核實(shí)現(xiàn),把Agent運(yùn)行環(huán)境與宿主機(jī)進(jìn)一步隔離開(kāi)。
GKE Hypercluster則瞄準(zhǔn)規(guī)模問(wèn)題。單一控制平面管理"up to a million accelerator chips",這個(gè)設(shè)計(jì)針對(duì)的是超大規(guī)模AI訓(xùn)練集群的運(yùn)維痛點(diǎn):多集群管理復(fù)雜、資源碎片化、調(diào)度延遲。Google沒(méi)有公布具體技術(shù)細(xì)節(jié),但"單一控制平面"意味著把調(diào)度范圍從單個(gè)集群擴(kuò)展到跨地域的芯片池,這對(duì)網(wǎng)絡(luò)拓?fù)浜凸收嫌蛟O(shè)計(jì)都是挑戰(zhàn)。
兩個(gè)產(chǎn)品的組合邏輯很清晰:Agent Sandbox解決"能不能安全跑",Hypercluster解決"能不能大規(guī)模跑"。Google的賭注是,AI基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)會(huì)從"誰(shuí)有算力"轉(zhuǎn)向"誰(shuí)能讓Agent安全、高效地消耗算力"。Kubernetes的編排能力在這里被重新包裝為"AI Agent的操作系統(tǒng)"——不是比喻,而是產(chǎn)品戰(zhàn)略。
不過(guò)落地層面還有未知數(shù)。gVisor的性能開(kāi)銷(xiāo)在通用場(chǎng)景已被討論多年,AI Agent的高頻I/O是否會(huì)讓這個(gè)問(wèn)題更突出?百萬(wàn)級(jí)芯片的單一控制平面,故障爆炸半徑如何控制?這些Google在發(fā)布稿中沒(méi)提,可能是留給后續(xù)技術(shù)文檔或客戶(hù)案例的敘事空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.