当前位置：首页 > news >正文

高保真+通用！视频扩散模型加持，稀疏视图重建任意场景！清华港科大发布ReconX

news 来源：原创 2024/9/20 19:52:53

文章链接：https://arxiv.org/pdf/2408.16767
git链接：https://liuff19.github.io/ReconX

亮点直击

ReconX，一种新颖的稀疏视角3D场景重建框架，该框架将模糊的重建挑战重新定义为时间生成任务。

将3D结构指导融入视频扩散模型的条件空间中，以生成3D一致的帧，并提出了一种基于置信度的3D优化方案（3DGS），以便在生成的视频基础上重建场景。

大量实验表明，ReconX在各种真实世界数据集上在高保真度和通用性方面优于现有方法。

3D场景重建的进展使得我们能够将来自现实世界的2D图像转换为3D模型，通过数百张输入照片生成逼真的3D结果。尽管在密集视角重建场景中取得了巨大成功，但从不足的捕捉视角中渲染详细场景仍然是一个难以解决的优化问题，常常导致未见区域出现伪影和失真。

本文提出了ReconX，一种新颖的3D场景重建范式，该范式将模糊的重建挑战重新定义为时间生成任务。关键的洞察在于释放大型预训练视频扩散模型在稀疏视角重建中的强生成先验。然而，直接从预训练模型生成的视频帧难以准确保持3D视角一致性。为了解决这个问题，ReconX首先根据有限的输入视角构建全局点云，并将其编码到上下文空间中作为3D结构条件。以此条件为指导，视频扩散模型生成的帧不仅能保留细节，而且展示高程度的3D一致性，从而确保从不同视角观看场景的一致性。最后，通过一种基于置信度的3D Gaussian Splatting优化方案从生成的视频中恢复3D场景。在各种真实世界数据集上的大量实验表明，ReconX在质量和通用性方面优于现有的最先进方法。

研究ReconX的动机

本文关注的是从非常稀疏的视角（例如，仅两个视角）图像中进行3D场景重建和新视角合成（NVS）的基本问题。大多数现有的研究（利用3D先验和几何约束（如深度、法线、代价体积）来填补稀疏视角3D重建中观测到的区域与新区域之间的差距。尽管这些方法能够从给定的视角生成高度逼真的图像，但由于视角不足以及由此产生的重建过程不稳定性，它们往往难以在输入视角不可见的区域生成高质量图像。为了解决这个问题，一个自然的想法是增加更多观测，从而将欠定的3D创建问题转化为一个完全约束的3D重建问题。

最近，视频生成模型在合成具有3D结构的视频片段方面显示出了前景。这激发了研究者们释放大型预训练视频扩散模型的强生成先验，以为稀疏视角重建创建时间上连贯的视频帧。然而，这并非易事，主要挑战在于视频帧之间的3D视角一致性差，这显著限制了下游3D Gaussian Splatting（3DGS）训练过程。为了在视频生成中实现3D一致性，首先从3D分布的角度分析视频扩散建模。设为来自任何3D场景的渲染2D图像集合，为渲染数据的分布，目标是最小化散度：

其中，是由参数（骨干网络中的参数）和（所有数据共享的嵌入函数）参数化的扩散模型。在普通的视频扩散模型中，他们选择了 CLIP模型来添加基于图像的条件（即，）。然而，在稀疏视角3D重建中，只有有限的2D图像作为条件无法提供足够的指导来逼近。因此，受到这一点的启发，探索了将原生3D先验（记作）结合进模型的潜力，以便在方程8中找到更优的解决方案，并在命题1中推导出理论公式。

命题1：设和为仅基于图像的条件扩散方案的最优解，而和为结合原生3D先验的扩散方案的最优解。假设散度是凸的，并且嵌入函数空间包括所有可测函数，则有。

为此，通过将3D原生结构指导融入扩散过程中，将固有模糊的重建问题重新定义为生成问题。

方法

ReconX 概述

给定个稀疏视角（即，少至两个）图像，其中，目标是重建基础的3D场景，并合成未见视角的新视图。在框架 ReconX 中，首先从中构建一个全局点云，并将投影到3D上下文表示空间中，作为结构指导。然后，将注入视频扩散过程中，以生成3D一致的视频帧，其中，从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影，我们利用来自 DUSt3R 模型的置信度图和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式，我们能够释放视频扩散模型的全部潜力，从非常稀疏的视角中重建复杂的3D场景。流程如下图2所示。

构建3D结构指导

基于前面理论分析，我们利用无约束的立体3D重建方法 DUSt3R，结合基于点的表示，来构建3D结构指导。给定一组稀疏图像，首先构建一个类似于 DUSt3R 的连接图，其中顶点和每条边表示图像和共享视觉内容。然后，利用来恢复一个全局对齐的点云。对于每对图像，预测成对的点图和及其对应的置信度图和（其中）。为了清晰起见，设和。由于研究者们旨在将所有成对预测旋转到一个共享坐标系中，引入了与每对相关的变换矩阵和缩放因子，以优化全局点云。

在对点云进行对齐后，我们将其投影到3D上下文表示空间中，通过一个基于变换器的编码器，以便更好地与视频扩散模型的潜在特征进行交互。具体来说，我们使用可学习的嵌入函数和交叉注意力编码模块，将输入点云嵌入到潜在代码中。

其中，是对进行1/8缩小的版本，以高效地将输入点压缩到紧凑的3D上下文空间中。最后，得到3D结构指导，其中包含3D场景的稀疏结构信息，可以被去噪U-Net模型解读。

生成3D一致的视频帧

研究者们将3D结构指导融入视频扩散过程中，以获得3D一致的帧。为了实现生成帧与场景高保真渲染视图之间的一致性，我们利用视频插值能力来恢复更多未见的观测，其中输入到视频扩散模型的第一帧和最后一帧作为两个参考视角。具体而言，给定稀疏视角图像作为输入，我们旨在渲染一致的帧，其中是生成的新帧数量。为了统一表示，将预训练视频扩散模型中的图像条件embedding表示为，将3D结构指导的嵌入表示为。随后，通过空间层的交叉注意力将3D指导注入到视频扩散过程中，与U-Net的中间特征进行交互。

其中，、、、、分别是2D和3D嵌入的查询、键和值。、、、和是投影矩阵，而是平衡图像条件和3D结构条件特征的系数。给定第一和最后两个视角的条件来自和3D结构条件来自，应用无分类器引导策略来结合这些条件，训练目标是

其中，是训练数据的真实视图中的噪声潜变量。

基于置信度的3D Gaussian Splatting优化

基于精心设计的3D结构指导，本文的视频扩散模型生成了高度一致的视频帧，这些帧可以用于重建3D场景。由于传统的3D重建方法最初是设计用来处理真实拍摄的带有标定相机度量的照片，因此直接将这些方法应用于生成的视频上，并不能完美地恢复连贯的场景，因为生成的图像存在不确定性。为了缓解不确定性问题，研究者们采用了基于置信度的3D Gaussian Splatting（3DGS）机制来重建复杂的场景。不同于最近的方法，这些方法在每个图像中建模不确定性，我们则专注于一系列帧的全局对齐。对于生成的帧，我们将生成视图和真实视图的每像素颜色值分别记作和。然后，在3DGS中，将像素值建模为高斯分布，其中的均值和方差分别为和。方差测量生成视图和真实视图之间的差异。目标是最小化以下所有帧的负对数似然：

其中，且是全局对齐函数。通过实证研究，我们发现了一个良好的对齐映射函数，该函数来源于 DUSt3R 的变换器解码器，它为每个生成的帧构建置信度图。具体而言，置信度得分在难以估计的区域（例如，单色区域）往往较低，而在不确定性较小的区域则较高。此外，引入 LPIPS损失来去除伪影并进一步提升视觉质量。为此，将基于置信度的3DGS损失公式化为：

其中、和分别表示 L1 损失、SSIM 损失和 LPIPS 损失，、和是它们相应的系数参数。与光度损失（例如 L1 和 SSIM）相比，LPIPS 损失主要关注高层次的语义信息。

实验

研究者们进行了广泛的实验来评估稀疏视角重建框架 ReconX。

实验设置

实现细节。 在ReconX中，选择 DUSt3R作为无约束立体3D重建的基础，并使用 I2V 模型 DynamiCrafter(@ 512 × 512 分辨率) 作为视频扩散模型的基础。首先在学习率为的情况下，对图像交叉注意力层进行 2000 步的微调以进行预热。然后，我们将 3D 结构条件融入视频扩散模型，并进一步在学习率为的情况下，对空间层进行 30K 步的微调。我们的视频扩散模型在 3D 场景数据集上进行训练，每批次采样 32 帧，动态 FPS，分辨率为 512 × 512。优化使用 AdamW优化器。在视频扩散推断阶段，我们采用 DDIM 采样器，使用多条件分类器自由引导。类似于 Xing et al.（2023），我们采用 tanh 门控自适应学习。训练在 8 张 NVIDIA A800（80G）GPU 上进行，为期两天。在 3DGS 优化阶段，我们选择第一帧和最后一帧的点图作为初始全局点云，并使用所有 32 帧生成的帧来重建场景。我们的实现遵循原始 3DGS的流程，但与该方法不同的是，我们省略了自适应控制过程，并在仅 1000 步内实现了高质量渲染。系数、和分别设置为 0.8、0.2 和 0.5。

数据集

ReconX 的视频扩散模型在三个数据集上进行训练：RealEstate-10K、ACID和 DL3DV-10K。RealEstate-10K 是一个从 YouTube 下载的数据集，分为 67,477 个训练场景和 7,289 个测试场景。ACID 数据集包含自然风景场景，包含 11,075 个训练场景和 1,972 个测试场景。DL3DV-10K 是一个大规模的户外数据集，包含 10,510 个视频，具有一致的拍摄标准。对于每个场景视频，我们随机抽取 32 帧连续的帧，并将第一帧和最后一帧作为我们视频扩散模型的输入。为了进一步验证跨数据集的泛化能力，我们还直接在两个流行的多视角数据集上评估我们的方法：DTU数据集和 NeRF-LLFF数据集，这两个数据集在 NVS 任务中非常流行。

基准和指标

研究者们将 ReconX 与原始 3DGS以及几种代表性的稀疏视角 3D 重建基准方法进行比较，包括：基于 NeRF 的 pixelNeRF和 MuRF；基于光场的 GPNR和 AttnRend；以及最近的最先进的 3DGS 基于 pixel-Splat和 MVSplat。对于定量结果，报告 NVS 中的标准指标，包括 PSNR、SSIM、LPIPS。为了公平比较，在 256 × 256 分辨率下进行实验，以符合现有方法的标准。

与基准方法的比较

小角度变化下的比较。 为了公平地与基准方法如 MuNeRF、pixelSplat和 MVSplat进行比较，首先在小角度变化的稀疏视角下比较了 ReconX 与这些基准方法（见下表1和图3）。我们观察到，ReconX 在所有视觉质量和定性感知指标上超越了所有先前的最先进模型。

大角度变化下的比较。 由于 MVSplat 和 pixelSplat 相较于以前的基准方法有显著提升，我们在更困难的设置下（即，给定具有大角度变化的稀疏视角）进行了深入比较。我们提出的 ReconX 在这些更具挑战性的设置下表现出比基准方法更显著的改进，特别是在未见过的和广义视角下（见下表2和图4）。这清楚地表明，ReconX 在利用视频扩散生成更一致的观察结果方面的有效性，从而缓解了固有的稀疏视角重建问题。

跨数据集泛化

通过 3D 结构指导释放视频扩散模型的强大生成能力，我们的 ReconX 在泛化到分布外的新场景方面具有本质上的优势。为了展示我们的强泛化能力，我们进行了两项跨数据集评估。为公平比较，仅在 RealEstate-10K 上训练模型，并直接在两个流行的 NVS 数据集（即 NeRF-LLFF和 DTU）上进行测试。如下表 3 和图 5 所示，竞争基准方法 MVSplat和 pixelSplat无法渲染这些包含不同相机分布和图像外观的 OOD 数据集，导致性能显著下降。相比之下，我们的 ReconX 展现了令人印象深刻的泛化能力，当训练数据和测试数据之间的领域差距增大时，性能提升更为显著。

视图数量评估

ReconX 对输入视图数量是无关的。具体来说，给定 N 个视图作为输入，我们采样一个合理的相机轨迹来使用我们的 video diffusion 模型渲染图像对，并最终从所有生成的帧中优化 3D 场景。为了公平比较，我们在 DTU 上使用三个上下文视图进行测试，验证这一点。ReconX的结果是：PSNR: 22.83，SSIM: 0.512，LPIPS: 0.317；MVSplat 的结果是：PSNR: 14.30，SSIM: 0.508，LPIPS: 0.371；pixelSplat 的结果是：PSNR: 12.52，SSIM: 0.367，LPIPS: 0.585。与双视图结果（上表 3）相比，当给定更多输入视图时，ReconX 和 MVSplat 均能取得更好的性能，但ReconX远优于 MVSplat。然而，pixelSplat 在使用更多视图时表现更差，这一点也在 Chen et al.（2024a）的研究中得到了体现。更多关于我们结果的可视化可以在我们的项目页面找到。

消融研究与分析

在 RealEstate-10K 上进行了一系列消融研究，以分析 ReconX 框架的设计，如表 4 和图 6 所示。将预训练视频扩散模型与 Gaussian Splatting 进行的简单组合被视为“基线”。具体来说，在以下方面对ReconX进行了消融实验：3D 结构指导、基于置信度的优化和 LPIPS 损失。结果表明，省略这些元素中的任何一个都会导致质量和一致性上的下降。特别是，原始视频扩散模型与 3DGS 的基本组合导致场景显著扭曲。缺乏 3D 结构指导会导致生成的帧在远处输入视图中不一致，从而出现模糊和伪影问题。缺少基于置信度的优化会导致某些局部细节区域的结果不佳。将 LPIPS 损失加入到基于置信度的 3DGS 优化中，可以提供更清晰的渲染视图。这说明了我们整体框架的有效性（见前面图 2），它在仅给定稀疏视图作为输入的情况下，驱动了可泛化和高保真度的 3D 重建。

结论

本文介绍了 ReconX，一种新颖的稀疏视角三维重建框架，该框架将复杂且模糊的重建问题重新定义为生成任务。方法核心在于利用视频扩散模型强大的生成能力，以生成更为可信的观测帧，用于稀疏视角的三维重建。通过将三维结构指导融入视频扩散过程中，提升了三维一致性视频帧的生成质量。此外，提出的三维置信度感知方案有效地解决了生成帧的不确定性问题，从而改进了最终的三维场景重建。

广泛实验表明，ReconX 在高质量和泛化能力方面超越了现有的最先进方法，尤其是在未见数据上表现突出。