【检测信息】谷歌4D世界模型来了，比SOTA快300倍！

标题摘要内容

来源:https://mp.weixin.qq.com/s/fKTTh0Bq80HC5CEJeW5jHA?scene=25#wechat_redirect | 作者:AI生 | 发布时间: 2026-01-29 | 32 次浏览 | 分享到:

如果是几年前，你问一位计算机视觉工程师：「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来，并且还能随时知道它们下一秒会去哪儿，需要多久？」

他大概会递给你一根烟，让你先去买几块顶级显卡，然后给你画一个由四五个不同模型拼凑起来的流程图：先算光流，再算深度，再估相机位姿，最后还得用一晚上的时间去跑优化，祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的 D4RT（Dynamic 4D Reconstruction and Tracking），试图终结这种混乱。

拆解「神话」

是真的快，还是文字游戏？

科技公司发论文，数据通常都很漂亮。

作为观察者，我们需要剥离 PR 滤镜，看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了 300 倍，处理一分钟的视频只需要 5 秒钟。

这是真的吗？

答案是：在特定维度上，是真的。

这里的「300倍」指的是吞吐量，具体来说是「在保持相同帧率（FPS）的前提下，模型能同时追踪多少条 3D 轨迹」。

数据对比：在 24 FPS 的标准电影帧率下，之前的强者 SpatialTrackerV2 只能同时追踪 84条轨迹，再多就卡了；而 D4RT 可以轻松处理 1570条。如果是和 DELTA 这种更慢的模型比，那就是 314 倍的差距。

实际意义：这意味着之前的技术可能只能盯着画面里的主角（比如一个人），而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿？

目前市面上的 4D 重建技术主要分两派：

「拼装派」（如 MegaSaM）：把深度估计、光流、分割等多个现成模型串起来。虽然效果不错，但不仅慢，而且一旦一个环节出错（比如光流飘了），后面全完。

「多头派」（如 VGGT）：虽然是一个大模型，但为了输出不同的任务（深度、位姿、点云），需要挂载不同的解码头，结构臃肿。

D4RT 的牛，在于它做到了架构层面的统一。

它不需要为深度单独做一个解码器，也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。

有没有代价？当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段，它依然是一个庞然大物。它的编码器使用了 ViT-g，拥有 10 亿参数，并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具，它是典型的「大厂重武器」。

技术解码

把 4D 重建变成「搜索引擎」

那么，D4RT 到底是怎么做到的？

论文的核心逻辑可以用一句话概括：先全局「阅读」视频，再按需「搜索」答案。

不再逐帧解码，而是「全局记忆」

传统的视频处理往往是线性的，处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器（Encoder），把整段视频压缩成一个全局场景表征（Global Scene Representation, F）。

你可以把这个 F 想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了，原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询（Query）语言。

当 AI 想要知道某个像素的信息时，它会向解码器（Decoder）发送一个查询 q：

这个公式翻译成人话就是：

「请告诉我：在这一帧图像上坐标为的那个点，它在这个时间时刻，如果从这个相机的视角看过去，它的 3D 坐标在哪里？」

如果你想生成深度图：就问「现在这个点在现在的相机里多远？」（让）。
如果你想做轨迹追踪：就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪？」（固定，改变）。
如果你想重建点云：就问「视频里所有点在同一时刻的世界坐标在哪？」（把所有点都映射到同一个）。

并行计算的艺术

因为每一个查询（Query）都是独立的，D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题，利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因：它把一个复杂的串行几何问题，变成了一个大规模并行的搜索问题。

关键的「作弊」技巧：9x9 Patch

论文作者还发现了一个有趣的细节：如果只告诉解码器坐标点，AI 有时候会「脸盲」，分不清纹理相似的区域。

于是，他们在查询时顺便把那个像素点周围 9x9的小方块图像（RGB Patch）也喂给了模型。这就像是你让人在人群中找人，光给个坐标不行，还得给他一张那个人脸部的特写照片。

消融实验证明，这个小小的设计极大地提升了重建的锐度和细节。

产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现，对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨，很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发，但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知，正是机器人急需的技能。

它能让机器人理解：那个东西不仅现在在那里，而且下一秒它会出现在我左边。

对于自动驾驶而言，这种对动态物体（如行人、车辆）的像素级轨迹预测，是提升安全性的关键。

增强现实（AR）的基石

谷歌一直在 AR 领域寻找突破口（从当年的谷歌眼镜，到现在的 Project Astra）。

要在眼镜端实现逼真的 AR，必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力（尤其是在移动端芯片上的潜力），让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响

视频编辑的「魔法化」

对于普通用户，这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下，你拍了一段孩子踢球的视频。

有了 D4RT，你可以像在《黑客帝国》里一样，在视频播放过程中随意旋转视角（尽管你拍摄时并没有移动），或者轻易地把路人从复杂的背景中「扣」掉，甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性：AI 对世界的理解，正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们，要看清这个流动的世界，关键不在于每一帧都看得多仔细，而在于如何建立一个能够随时回应疑问的全局记忆。

在 AI的眼中，过去并没有消逝，未来也不再不可捉摸，它们只是同一个四维坐标系里，等待被查询的两个不同参数而已。

参考资料：

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

深圳市人工智能检测认证中心立足深圳辐射全球，是全国领先的人工智能专业检测认证服务机构。深圳华必选检测认证公司（HBX Co.,Ltd.）是深圳市人工智能产业协会检测认证服务中心对外主体，先后深度参与《深圳经济特区人工智能产业促进条例》制定，开展全国首批人工智能专业职称评审、首席人工智能官CAIO认证及人工智能教材编制等工作。