<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      公里級場景也能穩住了,國產團隊把長視頻3D重建又往前推了一步

      0
      分享至



      長視頻 3D 重建最怕的,其實不是 "看不清"。

      前面幾十幀拍得再好,序列一拉長,軌跡就開始慢慢歪。模型在短片段上表現還行,但讓它一口氣吃掉幾百上千幀,誤差會一段接一段往后累。到了公里級大場景,這個問題被放得非常大。

      浙江大學、地平線機器人和之江實驗室最近的新工作Scal3R,要解決的就是這件事。

      以往做長序列重建,大家主要在 "怎么切塊、怎么拼回去" 上做文章。

      Scal3R 則更進一步關注問題本質:推理時要處理超長序列,訓練時也應該讓模型見過超長序列。作者借助 test-time training 技術,設計了一個全局上下文模塊和同步機制,將長序列訓練、推理以及跨 chunk 的信息更新放進同一個流程里,大幅提升了長序列重建的穩定性和精度。

      Scal3R 能夠處理超萬幀幾千米的超大規模場景三維重建,輸出精確的相機位姿和點云,下面是真實拍攝浙大紫金港校區的重建效果:



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      和 Depth Anything 3(Streaming 模式)的可視化對比:



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      論文 Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction 已上線 arXiv,代碼和模型權重分別發布在 GitHub 和 Hugging Face 平臺:



      • 論文鏈接:https://arxiv.org/abs/2604.08542
      • 論文主頁:https://zju3dv.github.io/scal3r/
      • 代碼倉庫:https://github.com/zju3dv/Scal3R
      • 模型地址:https://huggingface.co/xbillowy/Scal3R

      超大規模場景重建問題在哪

      這兩年 VGGT 這類前饋式 3D foundation model 已經能直接從 RGB 估計相機參數、深度和點云,精度相當不錯。

      但場景一變大、序列一拉長,麻煩就來了。

      一方面,Transformer 的長序列建模本身就貴,計算和顯存都會飛漲。

      另一方面,很多方法訓練和測試時面對的序列形態根本對不上。訓練通常喂短序列或局部窗口,測試卻要求模型吞幾百幀甚至上千幀,這種錯位會把長程漂移放大。

      目前應對長序列大致有兩條路。

      一條是壓縮 token,把更長序列硬塞進模型。確實能省一些計算,但細節和長程依賴也容易跟著被壓掉。

      另一條是 chunk-based 路線:先切成多個重疊片段各自重建,再做跨塊對齊。這條路比較實用,擴展性也好,只是前提是每一塊的局部幾何預測要夠準,否則塊間誤差會繼續被放大。

      所以問題的重點并不是 "怎么處理長序列",而是怎么讓模型訓練時就學會處理長序列,再用同一套機制在測試時穩住局部幾何和全局一致性。

      Scal3R 是怎么做的

      Scal3R 是在 VGGT 的視覺幾何能力上往前走的。局部幾何依然重要,Scal3R 沒打算繞開它,只是希望這份能力在長序列訓練和長序列推理里以一致方式被使用。

      作者的想法很直接:要讓模型測試時穩住長視頻,就不能只拿短片段訓練然后指望它自然泛化到長序列。所以 Scal3R 借助 test-time training 相關機制,把長序列訓練、長序列推理以及跨 chunk 的信息更新放進同一個流程里



      Scal3R 的整體框架。輸入長序列首先被切成多個重疊 chunk 并行處理,訓練和推理都圍繞長序列展開,并通過測試時更新與跨 chunk 同步提升大規模場景重建的一致性。

      圍繞這個思路,論文給出了兩個核心模塊。

      一個是全局上下文記憶模塊(Global Context Memory,GCM)。

      它由若干自適應存儲單元(Adaptive Memory Units)組成,可以當成一組輕量的、可更新的上下文模塊。每處理完一個 chunk,模型會通過自監督目標更新這些單元。GCM 在這里起兩個作用:一是跨 chunk 累積并保留上下文信息;二是讓訓練和測試階段用同一套逐 chunk 更新方式,模型從訓練第一步起就在適應長序列。

      另一個是全局上下文同步機制(Global Context Synchronization,GCS)。

      GCM 管逐 chunk 更新和上下文累積,GCS 負責把這些更新在不同 chunk 之間同步起來,使用 PyTorch DDP 的 all-reduce 機制,在不同的 chunk 之間同步自適應存儲單元的自監督梯度。

      Scal3R 處理長序列時會把它切成多個重疊 chunk,分配到不同 GPU 上并行跑。GCS 讓這些 chunk 的更新彼此同步,不管訓練還是推理,整個長序列機制都是一致的,不會出現訓練時學局部、測試時臨時拼一下的情況。

      關鍵的點是,作者并沒有把 test-time training 當成測試階段的臨時補丁,而是把它變成支撐長序列訓練和長序列推理對齊的一種方式;GCM/GCS 則在這種長序列機制里做更新、保留和同步。

      為什么 Scal3R 的做法可以穩住長序列

      長序列重建里最棘手的情形,經常不是 "看不見",而是局部都能看懂、時間跨度一長就不一定穩得住。

      大尺度室外場景里的重復紋理、長距離視角變化、稀疏采樣、長走廊、回環閉合 —— 每一項都在考驗局部幾何預測的魯棒性。局部塊必須先算得準,跨塊同步和長程約束才有意義;否則局部誤差會順著整條序列一路被放大。

      Scal3R 的價值就在這里。

      它沒有把長視頻簡單切開再拼回去,而是讓模型在訓練階段就反復經歷 "長序列 + 逐 chunk 更新 + 跨 chunk 同步" 的完整過程。等到測試時,模型遇到的行為模式和訓練時是一樣的。

      這時 memory 的角色就清楚了:GCM 不替代局部幾何預測,只是在逐 chunk 訓練和推理里提供一份可更新的上下文狀態,把前后 chunk 的信息接起來 —— 前提依然是局部幾何得可靠。

      所以 Scal3R 重要的地方不在削弱局部幾何,而在把局部幾何、可更新上下文、長序列訓練、測試時同步這四件事放到同一個框架里。

      一,長序列被拆成 chunk 來算。這把原本隨序列長度平方增長的計算壓力攤平了。按論文里的視角,全序列注意力的復雜度會隨長度快速上升,chunk-wise 處理則把問題改寫成更可控的局部計算,再通過融合擴展到整段序列。

      二,不是簡單分塊,而是逐 chunk 更新、再做同步。很多分塊方法塊和塊之間是割裂的,算完就算完了。Scal3R 會在每個 chunk 上算可更新模塊的變化,再由 GCS 把這些更新在 chunk 之間同步起來。網絡雖然按塊處理,但訓練和測試時都在學習怎么把局部結果放回長序列里。

      三,訓練時就直接面向長序列。論文里講得比較清楚:訓練階段會直接采樣連續長序列,再用不同 GPU 分組去覆蓋不同的有效序列長度。TTT 在這里更像是一種手段 —— 讓長序列訓練可行,也讓測試行為和訓練行為保持一致。

      這三條合起來就能解釋為什么 Scal3R 不止是 "能跑長序列",而是在長序列上把局部幾何質量、效率和整體一致性都穩住了。

      在基準測試上的效果

      論文從相機位姿和三維重建兩部分做了比較完整的評估,覆蓋室內外和不同尺度的場景,結果顯示提升很扎實。



      論文主表中的位姿與資源對比,覆蓋 VKITTI2、KITTI Odometry 和 Oxford Spires。

      相機位姿估計:表里 baseline 大致可以分成三類。SLAM / SfM 方法在條件合適時很準,比如 COLMAP 在 Oxford Spires 上很強,DPVO++ 在 VKITTI2 上誤差也低;但它們要么需要內參,要么速度慢,在資源統計中,COLMAP 平均一次推理要 6614.73 秒。前饋和 streaming 方法更快,但長序列漂移壓不住,FastVGGT 還會遇到顯存問題。最接近的對照是 VGGT-Long:它比不少 streaming baseline 穩,但 KITTI 上 ATE / RTE / RRE 仍是 25.94 / 9.67 / 1.71,而 Scal3R 是 14.55 / 4.61 / 0.97;Oxford Spires 上也從 15.46 m 降到 4.45 m。



      大規模多場景軌跡對比。藍線是預測軌跡,紅色虛線是真值軌跡。

      軌跡圖更直觀:KITTI 00 上 Scal3R 的 ATE 是 4.298,VGGT-Long 是 8.637;Oxford Keble 04 和 Oxford Quarter 01 上 ATE 分別是 2.448 和 1.624。藍線基本能貼住真值軌跡,其他方法更容易漂成局部團塊。

      再看三維重建精度



      三維重建點云評測,指標為 Chamfer Distance(越低越好)和 F1(越高越好)

      這張表更直接。Scal3R 在 ETH3D、Oxford Spires、VKITTI2 三個數據集上六個指標都是最優:ETH3D 是 0.11 / 0.91,Oxford Spires 是 0.96 / 0.96,VKITTI2 是 0.40 / 0.91。對比最強的 VGGT-Long,ETH3D 從 0.24 / 0.84 提到 0.11 / 0.91;Oxford Spires 從 3.41 / 0.80 提到 0.96 / 0.96;VKITTI2 則從 1.78 / 0.70 提到 0.40 / 0.91。這里的差距不只是局部幾何更準,也和前面的位姿穩定性有關:軌跡一旦漂了,后面拼出來的點云通常也會散。



      重建對比圖,展示 Oxford Keble 04 和 ETH3D Terrains 等場景。

      定性圖也對得上表格。像 Oxford Keble 04 這種大尺度校園場景,Scal3R 的建筑輪廓和庭院結構更完整;ETH3D Terrains 紅框里的墻面和門框邊界也更規整。FastVGGT、VGGT-Long、TTT3R 在不同場景里會出現局部破碎、漂散或者結構發糊,原因往往不是某一幀深度錯了,而是長序列位姿和局部幾何沒有一起穩住。

      精度之外再看下資源和擴展性。Scal3R 可以在單張 RTX 4090 上完成推理,它不是吞吐最快的方案,但在精度、長序列穩定性和可擴展性之間做了一個比較實用的取舍。補充材料里還分析了隨序列變長的趨勢:從 150 幀漲到 990 幀,整體運行時間基本呈線性增長,相對位姿誤差則穩在 0.07 到 0.08 m,說明它不是只適配某個固定長度。

      結語

      Scal3R 最值得留意的地方,不只是又做出來一個更強的長序列 3D 重建方法,而是它把問題的重點重新擺過一遍。

      它沒有把 "大規模 3D 重建" 簡單理解成更大的 backbone、更多 token 或者更激進的壓縮,而是問了一個更靠前的問題:模型要想在測試時吞下長序列,訓練時是不是也得先真正學過長序列?

      順著這個視角往下看,Scal3R 提出的其實不只是一個記憶模塊,更像是一種把局部幾何、可更新上下文、長序列訓練和測試時同步串起來的思路。對 3D 重建如此,搬到更廣泛的長視頻場景理解任務上,可能也差不多。

      如果你正在關心這幾件事 —— 長視頻怎么做高質量 3D 重建;foundation model 怎么擴展到公里級場景;test-time training 除了語言和分類任務,還能怎么真正落到 3D 視覺里 —— Scal3R 值得花點時間細讀。



      視頻鏈接:https://mp.weixin.qq.com/s/Yi8AMQ3BxcTCLUDlzvLlcg

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朝鮮姑娘懷孕,查明是志愿軍營長所為,彭總得知后批示8個字

      朝鮮姑娘懷孕,查明是志愿軍營長所為,彭總得知后批示8個字

      元哥說歷史
      2026-04-26 11:40:03
      調查發現:經常吃蘋果的人,不出半年時間,身體會出現這幾個變化

      調查發現:經常吃蘋果的人,不出半年時間,身體會出現這幾個變化

      搖感軍事
      2026-05-09 20:58:21
      “我媽有兩個老公”惹眾怒!武漢大學聲明:極感詫異和震驚

      “我媽有兩個老公”惹眾怒!武漢大學聲明:極感詫異和震驚

      大象新聞
      2026-05-10 18:42:20
      今晚起央一央八黃金檔炸了!歐豪肖戰等頂流扎堆開播

      今晚起央一央八黃金檔炸了!歐豪肖戰等頂流扎堆開播

      陳意小可愛
      2026-05-11 10:28:23
      莫言:一輩子也就那么回事,吃得飽,穿得暖就好了,別自尋煩惱

      莫言:一輩子也就那么回事,吃得飽,穿得暖就好了,別自尋煩惱

      杏花煙雨江南的碧園
      2026-05-08 13:15:03
      Lisa被曝出新瓜,慘遭LV三公子虐棄后瘋魔,拉同伴下水當上位籌碼

      Lisa被曝出新瓜,慘遭LV三公子虐棄后瘋魔,拉同伴下水當上位籌碼

      花哥扒娛樂
      2026-05-10 21:34:54
      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      漫婷侃娛樂
      2026-05-07 22:25:01
      好家伙《主角》剛開播就差評滿天飛,理由一個比一個令人匪夷所思

      好家伙《主角》剛開播就差評滿天飛,理由一個比一個令人匪夷所思

      阿傖說事
      2026-05-10 23:28:53
      孫穎莎越過鏡頭直奔邱貽可,這個動作究竟打臉了誰?

      孫穎莎越過鏡頭直奔邱貽可,這個動作究竟打臉了誰?

      老瑋是個手藝人
      2026-04-07 06:37:32
      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優勢

      日本乒乓球名將水谷隼說:中國隊之所以強大,根本不是技術優勢

      籃球看比賽
      2026-02-04 17:46:56
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      比亞迪9000噸壓鑄“掀桌”!74個零件變1塊鋁,成本降5000元的造車魔法?

      比亞迪9000噸壓鑄“掀桌”!74個零件變1塊鋁,成本降5000元的造車魔法?

      生活魔術專家
      2026-05-10 18:55:56
      破案了!賀希寧為何很生氣?CBA名記進行了解答

      破案了!賀希寧為何很生氣?CBA名記進行了解答

      體育哲人
      2026-05-11 09:28:58
      陳數帶火了70后新穿搭:緞面襯衫+印花半身裙,時髦減齡又顯貴

      陳數帶火了70后新穿搭:緞面襯衫+印花半身裙,時髦減齡又顯貴

      民宿體驗志
      2026-05-10 14:14:12
      今年將迎來史上最熱夏天?氣象專家解析

      今年將迎來史上最熱夏天?氣象專家解析

      人民資訊
      2026-05-11 11:15:12
      75歲曹查理:香港沒房到東莞定居,30年婚姻被騙,遺憾沒有親子女

      75歲曹查理:香港沒房到東莞定居,30年婚姻被騙,遺憾沒有親子女

      以茶帶書
      2026-05-09 17:08:39
      晚節不保?72歲濮存昕硬捧外孫女拍戲,網友吐槽:尖嘴猴腮求放過

      晚節不保?72歲濮存昕硬捧外孫女拍戲,網友吐槽:尖嘴猴腮求放過

      做一個合格的吃瓜群眾
      2026-05-11 13:29:42
      米體:佩斯卡拉降入意丙后引發球迷騷亂,因西涅賽后落淚

      米體:佩斯卡拉降入意丙后引發球迷騷亂,因西涅賽后落淚

      懂球帝
      2026-05-11 03:30:07
      面條立大功!調查發現:糖尿病患者常吃面條,或能降低5種并發癥

      面條立大功!調查發現:糖尿病患者常吃面條,或能降低5種并發癥

      新時代的兩性情感
      2026-05-11 11:21:12
      談判破裂!央視回絕國際足聯報價,中國球迷還能看到世界杯嗎?

      談判破裂!央視回絕國際足聯報價,中國球迷還能看到世界杯嗎?

      米老鼠的世界
      2026-05-11 08:59:16
      2026-05-11 14:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12968文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      手機
      藝術
      健康
      房產
      公開課

      手機要聞

      榮耀600系列手機開啟新品預約

      藝術要聞

      2026中央美術學院博士生畢業作品選

      干細胞能讓人“返老還童”嗎

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线看片a| 九九热精品在线视频| 午夜男女xx00视频福利| 一区二区三区一级黄色片| 狂躁女人双腿流白色液体| 国产绿帽视频大全在线放| 99久久全国免费观看| 无码一区二区三区中文字幕| 美乳视频一区二区| 国产高清精品在线91| 色综合久久久久久久久久| 人妻一区二区三区久久| 欧美精品影院| 18禁免费无码无遮挡网站| 成人AV无码一区二区三区| 大吊一区二区| 亚洲中文字幕无码卡通动漫野外| 日韩福利视频导航| 久久精品一区二区三区四区| ****亚洲成a人片第1集| 国产伦精品一区二区三区免费| 风间影音AV无码A片| 在线国产毛片手机小视频| 在线精品国产成人综合| 久久精品国产精品亚洲综合 | 55夜色66夜色国产精品视频| 午夜福利大片| 岛国精品一区免费视频在线观看 | 狠狠色噜噜狠狠狠狠av不卡| 色欲αv一区二区三区天美传媒| 免费黄色片成人国产精品| 韩国无码av片在线观看网站 | 国产精品亚洲综合色区丝瓜| 日韩精品在线观看一二区| 国产成人综合久久精品尤物| 国产农村乱子伦精品视频| av色国产色拍| 最新中文字幕在线| 色欲天天综合| 天天摸天天操免费播放小视频| 精品香蕉久久久午夜福利|