标题摘要内容
【检测信息】谷歌4D世界模型来了,比SOTA快300倍!
来源:https://mp.weixin.qq.com/s/fKTTh0Bq80HC5CEJeW5jHA?scene=25#wechat_redirect | 作者:AI生 | 发布时间: 2026-01-29 | 32 次浏览 | 分享到:

如果是几年前,你问一位计算机视觉工程师:「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来,并且还能随时知道它们下一秒会去哪儿,需要多久?」

他大概会递给你一根烟,让你先去买几块顶级显卡,然后给你画一个由四五个不同模型拼凑起来的流程图:先算光流,再算深度,再估相机位姿,最后还得用一晚上的时间去跑优化,祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的 D4RT(Dynamic 4D Reconstruction and Tracking),试图终结这种混乱。

拆解「神话」
是真的快,还是文字游戏?


科技公司发论文,数据通常都很漂亮。

作为观察者,我们需要剥离 PR 滤镜,看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了 300 倍,处理一分钟的视频只需要 5 秒钟。

这是真的吗?

答案是:在特定维度上,是真的。

这里的「300倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。

  • 数据对比:在 24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪 84条轨迹,再多就卡了;而 D4RT 可以轻松处理 1570条。如果是和 DELTA 这种更慢的模型比,那就是 314 倍的差距。


  • 实际意义:这意味着之前的技术可能只能盯着画面里的主角(比如一个人),而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿?

目前市面上的 4D 重建技术主要分两派:

  1. 「拼装派」(如 MegaSaM):把深度估计、光流、分割等多个现成模型串起来。虽然效果不错,但不仅慢,而且一旦一个环节出错(比如光流飘了),后面全完。

  1. 「多头派」(如 VGGT):虽然是一个大模型,但为了输出不同的任务(深度、位姿、点云),需要挂载不同的解码头,结构臃肿。

D4RT 的牛,在于它做到了架构层面的统一

它不需要为深度单独做一个解码器,也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。


有没有代价?当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段,它依然是一个庞然大物。它的编码器使用了 ViT-g,拥有 10 亿参数,并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具,它是典型的「大厂重武器」。

技术解码
把 4D 重建变成「搜索引擎」


那么,D4RT 到底是怎么做到的?

论文的核心逻辑可以用一句话概括:先全局「阅读」视频,再按需「搜索」答案。


不再逐帧解码,而是「全局记忆」


传统的视频处理往往是线性的,处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器(Encoder),把整段视频压缩成一个全局场景表征(Global Scene Representation, F)

你可以把这个 F 想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了,原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制


这是 D4RT 最天才的设计。它发明了一种通用的查询(Query)语言。

当 AI 想要知道某个像素的信息时,它会向解码器(Decoder)发送一个查询 q:



这个公式翻译成人话就是:

请告诉我:在 这一帧图像上坐标为 的那个点,它在 这个时间时刻,如果从 这个相机的视角看过去,它的 3D 坐标在哪里?」

  • 如果你想生成深度图:就问「现在这个点在现在的相机里多远?」(让 )。

  • 如果你想做轨迹追踪:就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪?」(固定 ,改变 )。

  • 如果你想重建点云:就问「视频里所有点在同一时刻的世界坐标在哪?」(把所有点都映射到同一个 )。




并行计算的艺术


因为每一个查询(Query)都是独立的,D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题,利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因:它把一个复杂的串行几何问题,变成了一个大规模并行的搜索问题。

关键的「作弊」技巧:9x9 Patch


论文作者还发现了一个有趣的细节:如果只告诉解码器坐标点,AI 有时候会「脸盲」,分不清纹理相似的区域。

于是,他们在查询时顺便把那个像素点周围 9x9的小方块图像(RGB Patch)也喂给了模型。这就像是你让人在人群中找人,光给个坐标不行,还得给他一张那个人脸部的特写照片。

消融实验证明,这个小小的设计极大地提升了重建的锐度和细节。

产业影响

谷歌的野心与具身智能的眼睛


D4RT 的出现,对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图


现在的机器人之所以笨,很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发,但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知,正是机器人急需的技能。

它能让机器人理解:那个东西不仅现在在那里,而且下一秒它会出现在我左边。

对于自动驾驶而言,这种对动态物体(如行人、车辆)的像素级轨迹预测,是提升安全性的关键。

增强现实(AR)的基石


谷歌一直在 AR 领域寻找突破口(从当年的谷歌眼镜,到现在的 Project Astra)。

要在眼镜端实现逼真的 AR,必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力(尤其是在移动端芯片上的潜力),让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响
视频编辑的「魔法化」


对于普通用户,这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下,你拍了一段孩子踢球的视频。

有了 D4RT,你可以像在《黑客帝国》里一样,在视频播放过程中随意旋转视角(尽管你拍摄时并没有移动),或者轻易地把路人从复杂的背景中「扣」掉,甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。


结语


D4RT 让我们看到了一种新的可能性:AI 对世界的理解,正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们,要看清这个流动的世界,关键不在于每一帧都看得多仔细,而在于如何建立一个能够随时回应疑问的全局记忆。

在 AI的眼中,过去并没有消逝,未来也不再不可捉摸,它们只是同一个四维坐标系里,等待被查询的两个不同参数而已。


参考资料:
https://d4rt-paper.github.io/
https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf


深圳市人工智能检测认证中心立足深圳辐射全球, 是全国领先的人工智能专业检测认证服务机构。深圳华必选检测认证公司(HBX Co.,Ltd.)是深圳市人工智能产业协会检测认证服务中心对外主体,先后深度参与《深圳经济特区人工智能产业促进条例》制定,开展全国首批人工智能专业职称评审、首席人工智能官CAIO认证及人工智能教材编制等工作。



文章来源:新智元