<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      徹底顛覆!谷歌4D世界模型來了,比SOTA快300倍!

      0
      分享至


      來源:新智元

      【導(dǎo)讀】谷歌 DeepMind 發(fā)布 D4RT,徹底顛覆了動態(tài) 4D 重建范式。它拋棄了復(fù)雜的傳統(tǒng)流水線,用一個統(tǒng)一的「時空查詢」接口,同時搞定全像素追蹤、深度估計與相機(jī)位姿。不僅精度屠榜,速度更比現(xiàn)有 SOTA 快出 300 倍。這是具身智能與自動駕駛以及 AR 的新基石,AI 終于能像人類一樣,實時看懂這個流動的世界。

      如果是幾年前,你問一位計算機(jī)視覺工程師:「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來,并且還能隨時知道它們下一秒會去哪兒,需要多久?」

      他大概會遞給你一根煙,讓你先去買幾塊頂級顯卡,然后給你畫一個由四五個不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機(jī)位姿,最后還得用一晚上的時間去跑優(yōu)化,祈禱結(jié)果別崩。

      但谷歌 DeepMind 剛剛發(fā)布的D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結(jié)這種混亂。


      這篇論文在計算機(jī)視覺領(lǐng)域扔下了一枚關(guān)于「效率革命」的重磅炸彈。

      它把原本割裂的 3D 重建、相機(jī)追蹤、動態(tài)物體捕捉,統(tǒng)一成了一個極簡的「查詢」動作。


      更重要的是,它的速度比現(xiàn)有SOTA技術(shù)快了 18 到 300 倍


      如果在你的認(rèn)知里,高質(zhì)量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農(nóng)場,耗費(fèi)漫長的時間等待生成完畢,那么 D4RT 正在把這種能力變成一種可以塞進(jìn)機(jī)器人大腦甚至 AR 眼鏡里的實時直覺。

      Demo 演示

      為了理解 D4RT 到底做到了什么,我們需要先看一眼它眼中的世界。

      在論文展示的演示中,最直觀的震撼來自于對「動態(tài)混亂」的駕馭能力。

      想象一下這個畫面:一只天鵝在水面上劃過,或者一朵花在風(fēng)中快速綻放。

      傳統(tǒng)的 3D 重建算法(比如 MegaSaM 或 )處理這種場景通常是一場災(zāi)難——因為它們假設(shè)世界是靜止的,所以它們往往會在 3D 空間里留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個脖子的怪物,或者花朵直接變成了一團(tuán)無法辨認(rèn)的噪點。

      但 D4RT 給出的結(jié)果極其干凈。

      它不僅可以精準(zhǔn)還原天鵝的 3D 形態(tài),還完美剝離了相機(jī)的運(yùn)動和天鵝自身的運(yùn)動。

      在它的視野里,時間變成了一個可以隨意拖動的滑塊。


      更令人印象深刻的是它的全像素追蹤能力。

      你可以點擊視頻中花瓣上的任意一個像素,D4RT 就能畫出這個點在過去和未來的完整 3D 軌跡,哪怕這個點在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據(jù)上下文「腦補(bǔ)」出它的去向。


      這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視頻,而是把整段視頻吞下去,在大腦里生成了一個完整的、流動的全息全景圖,然后你可以隨意從任何角度、任何時間去檢視它。


      模型能力對比圖

      拆解「神話」

      是真的快,還是文字游戲?

      科技公司發(fā)論文,數(shù)據(jù)通常都很漂亮。

      作為觀察者,我們需要剝離 PR 濾鏡,看看數(shù)據(jù)背后的定語。

      谷歌聲稱 D4RT 比之前的 SOTA 快了300 倍,處理一分鐘的視頻只需要 5 秒鐘。

      這是真的嗎?

      答案是:在特定維度上,是真的。

      這里的「300倍」指的是吞吐量,具體來說是「在保持相同幀率(FPS)的前提下,模型能同時追蹤多少條 3D 軌跡」。

      • 數(shù)據(jù)對比:在 24 FPS 的標(biāo)準(zhǔn)電影幀率下,之前的強(qiáng)者 SpatialTrackerV2 只能同時追蹤84條軌跡,再多就卡了;而 D4RT 可以輕松處理1570條。如果是和 DELTA 這種更慢的模型比,那就是314 倍的差距。


      • 實際意義:這意味著之前的技術(shù)可能只能盯著畫面里的主角(比如一個人),而 D4RT 可以同時盯著背景里走動的路人、飄落的樹葉和遠(yuǎn)處的車流——即所謂的「全像素級感知」。

      它比同類技術(shù)強(qiáng)在哪兒?

      目前市面上的 4D 重建技術(shù)主要分兩派:

      1. 「拼裝派」(如 MegaSaM):把深度估計、光流、分割等多個現(xiàn)成模型串起來。雖然效果不錯,但不僅慢,而且一旦一個環(huán)節(jié)出錯(比如光流飄了),后面全完。

      1. 「多頭派」(如 VGGT):雖然是一個大模型,但為了輸出不同的任務(wù)(深度、位姿、點云),需要掛載不同的解碼頭,結(jié)構(gòu)臃腫。

      D4RT 的牛,在于它做到了架構(gòu)層面的統(tǒng)一

      它不需要為深度單獨(dú)做一個解碼器,也不需要為位姿單獨(dú)做一個。

      它只用同一個接口解決所有問題。


      有沒有代價?當(dāng)然有。

      D4RT 的「快」主要體現(xiàn)在推理階段。

      在訓(xùn)練階段,它依然是一個龐然大物。它的編碼器使用了 ViT-g,擁有10 億參數(shù),并且需要在 64 個 TPU 芯片上訓(xùn)練兩天。

      這絕不是普通開發(fā)者在自家車庫里能復(fù)現(xiàn)的玩具,它是典型的「大廠重武器」。

      技術(shù)解碼

      把 4D 重建變成「搜索引擎」

      那么,D4RT 到底是怎么做到的?

      論文的核心邏輯可以用一句話概括:先全局「閱讀」視頻,再按需「搜索」答案。

      不再逐幀解碼,而是「全局記憶」

      傳統(tǒng)的視頻處理往往是線性的,處理第 10 幀時可能已經(jīng)「忘」了第 1 幀的細(xì)節(jié)。

      D4RT 的第一步是使用一個巨大的 Transformer 編碼器(Encoder),把整段視頻壓縮成一個全局場景表征(Global Scene Representation, F)

      你可以把這個F想象成 AI 對這段視頻形成的「長期記憶」。

      一旦這個記憶生成了,原本龐大的視頻數(shù)據(jù)就被濃縮在了這里。

      「哪里不會點哪里」的查詢機(jī)制

      這是 D4RT 最天才的設(shè)計。它發(fā)明了一種通用的查詢(Query)語言。

      當(dāng) AI 想要知道某個像素的信息時,它會向解碼器(Decoder)發(fā)送一個查詢 q:

      這個公式翻譯成人話就是:

      請告訴我:在這一幀圖像上坐標(biāo)為的那個點,它在這個時間時刻,如果從這個相機(jī)的視角看過去,它的 3D 坐標(biāo)在哪里?」

      • 如果你想生成深度圖:就問「現(xiàn)在這個點在現(xiàn)在的相機(jī)里多遠(yuǎn)?」(讓 )。

      • 如果你想做軌跡追蹤:就問「這個點在第 1 幀、第 2 幀……第 N 幀都在哪?」(固定 ,改變 )。


      • 如果你想重建點云:就問「視頻里所有點在同一時刻的世界坐標(biāo)在哪?」(把所有點都映射到同一個 )。


      并行計算的藝術(shù)

      因為每一個查詢(Query)都是獨(dú)立的,D4RT 不需要像穿針引線一樣按順序計算。

      它可以一次性扔出幾萬個問題,利用 GPU/TPU 的并行能力同時算出答案。

      這就是為什么它能比別人快 300 倍的根本原因:它把一個復(fù)雜的串行幾何問題,變成了一個大規(guī)模并行的搜索問題。

      關(guān)鍵的「作弊」技巧:9x9 Patch

      論文作者還發(fā)現(xiàn)了一個有趣的細(xì)節(jié):如果只告訴解碼器坐標(biāo)點,AI 有時候會「臉盲」,分不清紋理相似的區(qū)域。

      于是,他們在查詢時順便把那個像素點周圍9x9的小方塊圖像(RGB Patch)也喂給了模型。


      這就像是你讓人在人群中找人,光給個坐標(biāo)不行,還得給他一張那個人臉部的特寫照片。

      消融實驗證明,這個小小的設(shè)計極大地提升了重建的銳度和細(xì)節(jié)。


      產(chǎn)業(yè)影響

      谷歌的野心與具身智能的眼睛

      D4RT 的出現(xiàn),對谷歌現(xiàn)有的業(yè)務(wù)版圖和未來的 AI 戰(zhàn)略有著極強(qiáng)的互補(bǔ)性。

      具身智能與自動駕駛的最后一塊拼圖

      現(xiàn)在的機(jī)器人之所以笨,很大程度上是因為它們「看不懂」動態(tài)環(huán)境。

      一個掃地機(jī)器人能避開沙發(fā),但很難預(yù)判一只正在跑過來的貓。

      D4RT 提供的實時、密集、動態(tài)的 4D 感知,正是機(jī)器人急需的技能。

      它能讓機(jī)器人理解:那個東西不僅現(xiàn)在在那里,而且下一秒它會出現(xiàn)在我左邊。

      對于自動駕駛而言,這種對動態(tài)物體(如行人、車輛)的像素級軌跡預(yù)測,是提升安全性的關(guān)鍵。

      增強(qiáng)現(xiàn)實(AR)的基石

      谷歌一直在 AR 領(lǐng)域?qū)ふ彝黄瓶冢◤漠?dāng)年的谷歌眼鏡,到現(xiàn)在的 Project Astra)。

      要在眼鏡端實現(xiàn)逼真的 AR,必須要有極低延遲的場景理解。

      D4RT 展示的高效推理能力(尤其是在移動端芯片上的潛力),讓「實時把虛擬怪獸藏在真實沙發(fā)后面」變得在工程上可行。

      對普通人的影響

      視頻編輯的「魔法化」

      對于普通用戶,這項技術(shù)最快落地的場景可能是手機(jī)相冊和視頻編輯軟件。

      想象一下,你拍了一段孩子踢球的視頻。

      有了 D4RT,你可以像在《黑客帝國》里一樣,在視頻播放過程中隨意旋轉(zhuǎn)視角(盡管你拍攝時并沒有移動),或者輕易地把路人從復(fù)雜的背景中「扣」掉,甚至改變視頻中光源的方向。

      這是 D4RT 這種 4D 重建技術(shù)成熟后的應(yīng)用之一。

      結(jié)語

      D4RT 讓我們看到了一種新的可能性:AI 對世界的理解,正在從二維的「圖像識別」跨越到四維的「時空洞察」。

      它告訴我們,要看清這個流動的世界,關(guān)鍵不在于每一幀都看得多仔細(xì),而在于如何建立一個能夠隨時回應(yīng)疑問的全局記憶。

      AI的眼中,過去并沒有消逝,未來也不再不可捉摸,它們只是同一個四維坐標(biāo)系里,等待被查詢的兩個不同參數(shù)而已。

      參考資料:

      https://d4rt-paper.github.io/

      https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

      https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

      為偉大思想而生!

      AI+時代,互聯(lián)網(wǎng)思想(wanging0123),

      第一必讀自媒體

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      再貴也要吃,立夏后大量上市!通便排毒,殺菌消炎,錯過了真可惜

      再貴也要吃,立夏后大量上市!通便排毒,殺菌消炎,錯過了真可惜

      江江食研社
      2026-05-08 17:30:11
      賀嬌龍去世4個月,丈夫首次公開露面,賀媽媽悲傷哭泣惹人淚目

      賀嬌龍去世4個月,丈夫首次公開露面,賀媽媽悲傷哭泣惹人淚目

      180視角
      2026-05-08 13:12:21
      西甲前五,馬競確定獲得下賽季歐冠正賽資格

      西甲前五,馬競確定獲得下賽季歐冠正賽資格

      懂球帝
      2026-05-08 05:26:58
      金螳螂:目前僅承接少量 商業(yè)航天發(fā)射場配套工程 及數(shù)據(jù)中心施工項目

      金螳螂:目前僅承接少量 商業(yè)航天發(fā)射場配套工程 及數(shù)據(jù)中心施工項目

      每日經(jīng)濟(jì)新聞
      2026-05-07 22:52:55
      霹靂15迎來勁敵,印度引進(jìn)300枚R37M,射程400公里專克霹靂15?

      霹靂15迎來勁敵,印度引進(jìn)300枚R37M,射程400公里專克霹靂15?

      鋒芒點兵
      2026-05-08 18:04:15
      浙江油價定了:5月8日24時起,92號汽油每升8.68元,95號汽油每升9.23元,0號柴油每升8.39元

      浙江油價定了:5月8日24時起,92號汽油每升8.68元,95號汽油每升9.23元,0號柴油每升8.39元

      臺州交通廣播
      2026-05-08 16:54:11
      賴清德“跪了”

      賴清德“跪了”

      極目新聞
      2026-05-08 08:26:23
      沒想到,世乒賽尚未收官,孫穎莎的恩師邱貽可又迎來重磅喜訊

      沒想到,世乒賽尚未收官,孫穎莎的恩師邱貽可又迎來重磅喜訊

      生活新鮮市
      2026-05-08 18:14:06
      納瓦爾:不要去管別人,只管早睡、運(yùn)動和讀書

      納瓦爾:不要去管別人,只管早睡、運(yùn)動和讀書

      書窗小記
      2026-05-06 21:38:32
      一天了還沒笑夠?姆巴佩大笑著回到皇馬訓(xùn)練基地

      一天了還沒笑夠?姆巴佩大笑著回到皇馬訓(xùn)練基地

      懂球帝
      2026-05-08 16:29:07
      坐等官宣!《花少8》未播先火,雙數(shù)季魔咒、嘉賓陣容引全網(wǎng)熱議

      坐等官宣!《花少8》未播先火,雙數(shù)季魔咒、嘉賓陣容引全網(wǎng)熱議

      一禾的世界
      2026-05-07 13:15:29
      廣東男籃動態(tài)更新!徐杰深夜加練,杜峰調(diào)整陣容,朱芳雨提前部署引援動作

      廣東男籃動態(tài)更新!徐杰深夜加練,杜峰調(diào)整陣容,朱芳雨提前部署引援動作

      凱豐侃球
      2026-05-08 15:07:34
      特朗普態(tài)度180度轉(zhuǎn)變:連說中國三句好話!日本想截胡卻被晾一邊

      特朗普態(tài)度180度轉(zhuǎn)變:連說中國三句好話!日本想截胡卻被晾一邊

      小蔑談事
      2026-05-08 17:32:10
      給《低智商犯罪》演技最好的10位演員排個名:王傳君第3,王驍?shù)?

      給《低智商犯罪》演技最好的10位演員排個名:王傳君第3,王驍?shù)?

      八斗小先生
      2026-05-07 16:56:09
      被傳緋聞22年,楊紫和張一山終于公開回應(yīng),雙方家長都見過了

      被傳緋聞22年,楊紫和張一山終于公開回應(yīng),雙方家長都見過了

      科學(xué)發(fā)掘
      2026-05-08 13:23:20
      利率1.3%沒人存!銀行員工納悶:現(xiàn)在老百姓存錢,到底在琢磨啥?

      利率1.3%沒人存!銀行員工納悶:現(xiàn)在老百姓存錢,到底在琢磨啥?

      生活新鮮市
      2026-05-08 12:03:33
      伊朗外長來北京,開口向中方求助,不到24小時,特朗普叫停一件事

      伊朗外長來北京,開口向中方求助,不到24小時,特朗普叫停一件事

      阿尢說歷史
      2026-05-08 16:47:50
      中式軍工有多卷?當(dāng)前路沒了參照物,一句“萬一呢”開始左右互搏

      中式軍工有多卷?當(dāng)前路沒了參照物,一句“萬一呢”開始左右互搏

      無知君趣科普
      2026-05-08 17:32:10
      美媒:美政府正尋求重啟“自由計劃”行動

      美媒:美政府正尋求重啟“自由計劃”行動

      環(huán)球網(wǎng)資訊
      2026-05-08 07:59:46
      反轉(zhuǎn)!夜光劇本事件7年后再復(fù)盤:原來我們都被卓偉和輿論帶偏了

      反轉(zhuǎn)!夜光劇本事件7年后再復(fù)盤:原來我們都被卓偉和輿論帶偏了

      老吳教育課堂
      2026-05-06 01:45:59
      2026-05-08 19:28:49
      互聯(lián)網(wǎng)思想 incentive-icons
      互聯(lián)網(wǎng)思想
      AI時代,互聯(lián)網(wǎng)思想觀察
      2444文章數(shù) 16909關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      輪到豆包收割了?

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態(tài)度原創(chuàng)

      健康
      家居
      教育
      時尚
      親子

      干細(xì)胞能讓人“返老還童”嗎

      家居要聞

      流動的尺度 打破家的形式主義

      教育要聞

      南京江寧區(qū)2026年小學(xué)、初中招生入學(xué)工作實施細(xì)則

      海魂衫搭配白色,更解暑!

      親子要聞

      越來越多的80后開始拼三胎了!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: jizz日本大全| 日韩精人妻无码一区二区三区| 97综合图片| 国产欧美精品一区aⅴ影院| 国产丝袜无码一区二区视频| 国产精品久久久久久久久久免费看| 中文亚洲字幕| 亚洲无码成| 欧美午夜成人片在线观看| 天天爽夜夜爽人人爽一区二区| 国内精品大秀视频日韩精品 | 3p露脸在线播放| 日韩精品亚洲人成在线观看| 夜夜春夜夜爽| 国产av成人亚洲综合| 国产乱码精品一区二区三区四川人| 亚洲av熟女| 人妻无码人妻有码不卡| jizzjizzyou| 热久久99精品这里有精品| 国产成人精品在线| 精品亚洲一区二区三区四区五区| 久久人妻精品国产| 日韩视频一区二区三区| 91免费人成网站在线观看| 91精品国产自产在线蜜臀| 亚洲AV影视| 18禁黄污吃奶免费看网站| 九九热在线视频精品店| 亚洲成人黄色网| 久久足交| 欧美老熟妇牲交| 国产人妖视频一区在线观看 | 中文字幕乱码亚洲中文在线| 欧美高清精品一区二区| 亚洲精品无码久久久久sm| 噜噜涩99| 国产麻豆一精品av一免费软件| 久久精品麻豆日日躁夜夜躁| 欧美专区第二页| 91视频网址|