斯坦福、丰田最新研究，单视频合成多视角模型GCD

AIGC动态1年前 (2024)发布 AIGCOPEN

2,713 0 0

文章摘要

在AI视觉领域，重建复杂动态场景是一个极具挑战性的任务。尽管OpenAI的Sora模型能够生成长达一分钟的高质量视频，但其在没有多视角视频输入的情况下，合成动态新视角视频的能力有限。为了解决这一问题，斯坦福大学、丰田和哥伦比亚大学的研究人员联合开发了一种创新模型——GCD（Generative Camera Dynamics），该模型能够在仅提供一段任意场景视频的基础上，根据一组相对相机位姿参数，同步生成从其他任意360度视角的视频。

GCD模型的技术创新在于其不依赖深度数据作为输入，也不直接建模三维场景的几何框架，而是采用端到端、视频到视频的方法直接完成生成。这种方法有助于开发者探索动态场景的视觉理解和模拟。例如，在自动驾驶测试中，GCD可以生成不同视角的驾驶场景，用于自动驾驶车辆的训练，帮助AI更好地理解和应对各种道路情况。

GCD模型的架构基于Stable Video Diffusion（SVD）模型进行了修改和优化，使其能够接受相机姿态参数作为输入，从而控制生成视频中的相机多视角。模型内置了“微条件机制”模块，可以接受期望帧率、光流量等低维元数据，并通过多层感知处理这些信息，将它们嵌入到网络的不同卷积层中。这样，模型在生成视频时能够考虑到相机的旋转和平移，实现多视角的精确控制。

为了确保生成的视频能够准确反映输入视频中的动态场景，GCD模型采用了混合条件机制，主要包括两个流程：1）利用CLIP模型计算输入视频帧的特征嵌入，并通过交叉注意力机制对U-Net进行条件化；2）将VAE编码的输入视频帧与正在去噪的视频样本帧进行通道级联。这种混合条件机制使得模型在生成视频时，能够同时考虑到输入视频的视觉信号和动态信息，分析输入视频中可见的形状和外观，并根据世界知识和观察到的其他帧推断出被遮挡区域，增强对复杂动态场景的完整重建。

在训练GCD模型时，研究人员使用了两个高质量的合成训练数据集：Kubric-4D和ParallelDomain-4D。这两个数据集专为动态场景视图合成任务而构建，提供了丰富的多视角视频片段，覆盖了多样化的动态场景，如机器人操作、驾驶环境和具有重度遮挡的自然场景，为AI模型学习如何在动态环境中处理视角变换和遮挡问题提供了重要基础。

Kubric-4D数据集是一个通用的多物体交互视频数据集，具有高度的视觉细节和物理真实感。每个场景包含7到22个随机大小的物体，其中大约三分之一的物体在视频开始时被放置在半空中，以增加动态效果。这些场景以24帧每秒的速率生成，每个场景包含60帧，从16个虚拟相机的固定姿势渲染RGB-D数据。为了增强数据的多样性，研究者们采用了一种数据增强技术，将所有可用视点的像素合并到每个帧的3D点云中，然后根据可控制的相机轨迹重新渲染视频。

ParallelDomain-4D数据集则是专为驾驶场景设计的，提供了复杂、高度逼真的道路场景视频。这个数据集覆盖了各种地点、车辆、行人、交通情况和天气条件，为模型提供了丰富的环境理解和空间推理技能的训练材料。ParallelDomain-4D中的每个场景包含50帧，以10帧每秒的速率生成，提供了包括RGB颜色、语义类别、实例ID等多模态的高质量注释，以及从19个虚拟相机的固定姿势渲染的逐像素真实深度。这些注释为模型提供了额外的上下文信息，有助于模型对场景理解和视频生成质量的提升。

总之，GCD模型的推出为AI视觉领域带来了新的突破，其创新的技术方法和高质量的训练数据集为动态场景的视觉理解和模拟提供了有力支持，有望在自动驾驶、机器人操作等多个领域发挥重要作用。