

【新智元導(dǎo)讀】谷歌 DeepMind 發(fā)布 D4RT,徹底顛覆了動(dòng)態(tài) 4D 重建范式。它拋棄了復(fù)雜的傳統(tǒng)流水線,用一個(gè)統(tǒng)一的「時(shí)空查詢」接口,同時(shí)搞定全像素追蹤、深度估計(jì)與相機(jī)位姿。不僅精度屠榜,速度更比現(xiàn)有 SOTA 快出 300 倍。這是具身智能與自動(dòng)駕駛以及 AR 的新基石,AI 終于能像人類一樣,實(shí)時(shí)看懂這個(gè)流動(dòng)的世界。
如果是幾年前,你問一位計(jì)算機(jī)視覺工程師:「我想把這段視頻里的所有東西——無論它是靜止的房子還是奔跑的狗——都在 3D 世界里重建出來,并且還能隨時(shí)知道它們下一秒會(huì)去哪兒,需要多久?」
他大概會(huì)遞給你一根煙,讓你先去買幾塊頂級(jí)顯卡,然后給你畫一個(gè)由四五個(gè)不同模型拼湊起來的流程圖:先算光流,再算深度,再估相機(jī)位姿,最后還得用一晚上的時(shí)間去跑優(yōu)化,祈禱結(jié)果別崩。
但谷歌 DeepMind 剛剛發(fā)布的 D4RT(Dynamic 4D Reconstruction and Tracking),試圖終結(jié)這種混亂。

這篇論文在計(jì)算機(jī)視覺領(lǐng)域扔下了一枚關(guān)于「效率革命」的重磅炸彈。
它把原本割裂的 3D 重建、相機(jī)追蹤、動(dòng)態(tài)物體捕捉,統(tǒng)一成了一個(gè)極簡的「查詢」動(dòng)作。

更重要的是,它的速度比現(xiàn)有 SOTA技術(shù)快了 18 到 300 倍。

如果在你的認(rèn)知里,高質(zhì)量的 4D 重建還是好萊塢特效工作室里那些昂貴且緩慢的渲染農(nóng)場,耗費(fèi)漫長的時(shí)間等待生成完畢,那么 D4RT 正在把這種能力變成一種可以塞進(jìn)機(jī)器人大腦甚至 AR 眼鏡里的實(shí)時(shí)直覺。
Demo 演示
為了理解 D4RT 到底做到了什么,我們需要先看一眼它眼中的世界。
在論文展示的演示中,最直觀的震撼來自于對(duì)「動(dòng)態(tài)混亂」的駕馭能力。
想象一下這個(gè)畫面:一只天鵝在水面上劃過,或者一朵花在風(fēng)中快速綻放。
傳統(tǒng)的 3D 重建算法(比如 MegaSaM 或 )處理這種場景通常是一場災(zāi)難——因?yàn)樗鼈兗僭O(shè)世界是靜止的,所以它們往往會(huì)在 3D 空間里留下一串「重影」,就像老式膠片重疊曝光一樣,天鵝變成了長著幾十個(gè)脖子的怪物,或者花朵直接變成了一團(tuán)無法辨認(rèn)的噪點(diǎn)。
但 D4RT 給出的結(jié)果極其干凈。
它不僅可以精準(zhǔn)還原天鵝的 3D 形態(tài),還完美剝離了相機(jī)的運(yùn)動(dòng)和天鵝自身的運(yùn)動(dòng)。
在它的視野里,時(shí)間變成了一個(gè)可以隨意拖動(dòng)的滑塊。

更令人印象深刻的是它的全像素追蹤能力。
你可以點(diǎn)擊視頻中花瓣上的任意一個(gè)像素,D4RT 就能畫出這個(gè)點(diǎn)在過去和未來的完整 3D 軌跡,哪怕這個(gè)點(diǎn)在中間幾幀被蜜蜂遮擋了,或者跑到了畫面之外,模型依然能根據(jù)上下文「腦補(bǔ)」出它的去向。

這種視覺效果給人的感覺是:AI 不再是在一幀幀地「看」視頻,而是把整段視頻吞下去,樂魚體育官方網(wǎng)站在大腦里生成了一個(gè)完整的、流動(dòng)的全息全景圖,然后你可以隨意從任何角度、任何時(shí)間去檢視它。

模型能力對(duì)比圖
拆解「神話」
是真的快,還是文字游戲?
科技公司發(fā)論文,數(shù)據(jù)通常都很漂亮。
作為觀察者,我們需要?jiǎng)冸x PR 濾鏡,看看數(shù)據(jù)背后的定語。
谷歌聲稱 D4RT 比之前的 SOTA 快了 300 倍,處理一分鐘的視頻只需要 5 秒鐘。
這是真的嗎?
答案是:在特定維度上,是真的。
這里的「300 倍」指的是吞吐量,具體來說是「在保持相同幀率(FPS)的前提下,模型能同時(shí)追蹤多少條 3D 軌跡」。
數(shù)據(jù)對(duì)比:在 24 FPS 的標(biāo)準(zhǔn)電影幀率下,之前的強(qiáng)者 SpatialTrackerV2 只能同時(shí)追蹤 84條軌跡,再多就卡了;而 D4RT 可以輕松處理 1570條。如果是和 DELTA 這種更慢的模型比,那就是 314 倍的差距。

實(shí)際意義:這意味著之前的技術(shù)可能只能盯著畫面里的主角(比如一個(gè)人),而 D4RT 可以同時(shí)盯著背景里走動(dòng)的路人、飄落的樹葉和遠(yuǎn)處的車流——即所謂的「全像素級(jí)感知」。
它比同類技術(shù)強(qiáng)在哪兒?
目前市面上的 4D 重建技術(shù)主要分兩派:
「拼裝派」(如 MegaSaM):把深度估計(jì)、光流、分割等多個(gè)現(xiàn)成模型串起來。雖然效果不錯(cuò),但不僅慢,而且一旦一個(gè)環(huán)節(jié)出錯(cuò)(比如光流飄了),后面全完。
「多頭派」(如 VGGT):雖然是一個(gè)大模型,金沙電玩但為了輸出不同的任務(wù)(深度、位姿、點(diǎn)云),需要掛載不同的解碼頭,結(jié)構(gòu)臃腫。
D4RT 的牛,在于它做到了架構(gòu)層面的統(tǒng)一。
它不需要為深度單獨(dú)做一個(gè)解碼器,也不需要為位姿單獨(dú)做一個(gè)。
它只用同一個(gè)接口解決所有問題。

有沒有代價(jià)?當(dāng)然有。
D4RT 的「快」主要體現(xiàn)在推理階段。
在訓(xùn)練階段,它依然是一個(gè)龐然大物。它的編碼器使用了 ViT-g,擁有 10 億參數(shù),并且需要在 64 個(gè) TPU 芯片上訓(xùn)練兩天。
這絕不是普通開發(fā)者在自家車庫里能復(fù)現(xiàn)的玩具,它是典型的「大廠重武器」。
技術(shù)解碼
把 4D 重建變成「搜索引擎」
那么,D4RT 到底是怎么做到的?
論文的核心邏輯可以用一句話概括:先全局「閱讀」視頻,再按需「搜索」答案。
不再逐幀解碼,而是「全局記憶」
傳統(tǒng)的視頻處理往往是線性的,處理第 10 幀時(shí)可能已經(jīng)「忘」了第 1 幀的細(xì)節(jié)。
D4RT 的第一步是使用一個(gè)巨大的 Transformer 編碼器(Encoder),把整段視頻壓縮成一個(gè)全局場景表征(Global Scene Representation, F)。
你可以把這個(gè) F 想象成 AI 對(duì)這段視頻形成的「長期記憶」。
{jz:field.toptypename/}一旦這個(gè)記憶生成了,原本龐大的視頻數(shù)據(jù)就被濃縮在了這里。
「哪里不會(huì)點(diǎn)哪里」的查詢機(jī)制
這是 D4RT 最天才的設(shè)計(jì)。它發(fā)明了一種通用的查詢(Query)語言。
當(dāng) AI 想要知道某個(gè)像素的信息時(shí),它會(huì)向解碼器(Decoder)發(fā)送一個(gè)查詢 q:
這個(gè)公式翻譯成人話就是:
「請(qǐng)告訴我:在 這一幀圖像上坐標(biāo)為 的那個(gè)點(diǎn),它在 這個(gè)時(shí)間時(shí)刻,如果從 這個(gè)相機(jī)的視角看過去,它的 3D 坐標(biāo)在哪里?」
如果你想生成深度圖:就問「現(xiàn)在這個(gè)點(diǎn)在現(xiàn)在的相機(jī)里多遠(yuǎn)?」(讓 )。
如果你想做軌跡追蹤:就問「這個(gè)點(diǎn)在第 1 幀、第 2 幀 …… 第 N 幀都在哪?」(固定 ,改變 )。

如果你想重建點(diǎn)云:就問「視頻里所有點(diǎn)在同一時(shí)刻的世界坐標(biāo)在哪?」(把所有點(diǎn)都映射到同一個(gè) )。

并行計(jì)算的藝術(shù)
因?yàn)槊恳粋€(gè)查詢(Query)都是獨(dú)立的,D4RT 不需要像穿針引線一樣按順序計(jì)算。
它可以一次性扔出幾萬個(gè)問題,利用 GPU/TPU 的并行能力同時(shí)算出答案。
這就是為什么它能比別人快 300 倍的根本原因:它把一個(gè)復(fù)雜的串行幾何問題,變成了一個(gè)大規(guī)模并行的搜索問題。
關(guān)鍵的「作弊」技巧:9x9 Patch
論文作者還發(fā)現(xiàn)了一個(gè)有趣的細(xì)節(jié):如果只告訴解碼器坐標(biāo)點(diǎn),AI 有時(shí)候會(huì)「臉盲」,分不清紋理相似的區(qū)域。
于是,他們在查詢時(shí)順便把那個(gè)像素點(diǎn)周圍 9x9的小方塊圖像(RGB Patch)也喂給了模型。

這就像是你讓人在人群中找人,光給個(gè)坐標(biāo)不行,還得給他一張那個(gè)人臉部的特寫照片。
消融實(shí)驗(yàn)證明,這個(gè)小小的設(shè)計(jì)極大地提升了重建的銳度和細(xì)節(jié)。

產(chǎn)業(yè)影響
谷歌的野心與具身智能的眼睛
D4RT 的出現(xiàn),對(duì)谷歌現(xiàn)有的業(yè)務(wù)版圖和未來的 AI 戰(zhàn)略有著極強(qiáng)的互補(bǔ)性。
具身智能與自動(dòng)駕駛的最后一塊拼圖
現(xiàn)在的機(jī)器人之所以笨,很大程度上是因?yàn)樗鼈儭缚床欢箘?dòng)態(tài)環(huán)境。
一個(gè)掃地機(jī)器人能避開沙發(fā),但很難預(yù)判一只正在跑過來的貓。
D4RT 提供的實(shí)時(shí)、密集、動(dòng)態(tài)的 4D 感知,正是機(jī)器人急需的技能。
它能讓機(jī)器人理解:那個(gè)東西不僅現(xiàn)在在那里,而且下一秒它會(huì)出現(xiàn)在我左邊。
對(duì)于自動(dòng)駕駛而言,這種對(duì)動(dòng)態(tài)物體(如行人、車輛)的像素級(jí)軌跡預(yù)測,是提升安全性的關(guān)鍵。
增強(qiáng)現(xiàn)實(shí)(AR)的基石
谷歌一直在 AR 領(lǐng)域?qū)ふ彝黄瓶冢◤漠?dāng)年的谷歌眼鏡,到現(xiàn)在的 Project Astra)。
要在眼鏡端實(shí)現(xiàn)逼真的 AR,必須要有極低延遲的場景理解。
D4RT 展示的高效推理能力(尤其是在移動(dòng)端芯片上的潛力),讓「實(shí)時(shí)把虛擬怪獸藏在真實(shí)沙發(fā)后面」變得在工程上可行。
對(duì)普通人的影響
視頻編輯的「魔法化」
對(duì)于普通用戶,這項(xiàng)技術(shù)最快落地的場景可能是手機(jī)相冊和視頻編輯軟件。
想象一下,你拍了一段孩子踢球的視頻。
有了 D4RT,你可以像在《黑客帝國》里一樣,在視頻播放過程中隨意旋轉(zhuǎn)視角(盡管你拍攝時(shí)并沒有移動(dòng)),或者輕易地把路人從復(fù)雜的背景中「摳」掉,甚至改變視頻中光源的方向。
這是 D4RT 這種 4D 重建技術(shù)成熟后的應(yīng)用之一。
結(jié)語
D4RT 讓我們看到了一種新的可能性:AI 對(duì)世界的理解,正在從二維的「圖像識(shí)別」跨越到四維的「時(shí)空洞察」。
它告訴我們,要看清這個(gè)流動(dòng)的世界,關(guān)鍵不在于每一幀都看得多仔細(xì),而在于如何建立一個(gè)能夠隨時(shí)回應(yīng)疑問的全局記憶。
在 AI的眼中,過去并沒有消逝,未來也不再不可捉摸,它們只是同一個(gè)四維坐標(biāo)系里,等待被查詢的兩個(gè)不同參數(shù)而已。

備案號(hào):