用于生成4D城市的大模型—CityDreamer4D

1,108 0 0

文章摘要

大模型的出现显著提升了3D场景生成的效率，但生成包含时间和空间维度的4D城市场景仍然面临巨大挑战。4D城市生成不仅需要处理结构复杂、视觉多样化的物体，如建筑物和车辆，还需应对人类对城市环境中畸变的高度敏感性。现有的4D场景生成方法要么无法保证时间一致性，要么生成的场景规模有限，难以满足实际应用需求。为此，新加坡南洋理工大学的S-Lab研究团队发布了CityDreamer4D，旨在解决这一难题。

CityDreamer4D的创新与突破主要体现在其独特的模块化设计和对4D城市生成任务的深度理解上。该框架将复杂的4D城市生成任务分解为多个专业模块，以提升生成效率和结果的真实性与多样性。其中，无边界布局生成器是核心模块之一，负责生成城市的静态布局，包括道路、建筑物、植被等元素的位置和分布。该模块基于MaskGIT技术，通过将语义地图和高度场分割成小块并编码到离散的潜在空间中，实现对城市布局的高效生成。在推理过程中，布局标记可以自回归地生成，并通过VQVAE解码器重建语义地图和高度场。为了创建任意大小的城市布局，该模块还采用了图像外推技术，通过滑动窗口逐步预测局部布局标记，从而实现对无边界城市的生成。

交通场景生成器是另一个关键模块，负责生成动态交通场景。它首先根据城市布局生成高保真度（HD）地图，包含道路边缘、车道、交通信号等详细信息。然后，利用预训练模型根据HD地图确定动态对象（如车辆）的每帧边界框，并据此生成语义地图和高度场。通过这种方式，交通场景生成器能够生成与城市布局相匹配且具有时间一致性的交通场景。

城市背景生成器采用鸟瞰图（BEV）表示法，以高效且富有表现力的方式生成城市的背景图像，如道路、植被和天空等。该模块通过提取城市布局中的局部窗口，并将其编码为紧凑的场景级特征，然后利用生成式神经哈希网格对背景进行建模。在体积渲染过程中，每个像素的值通过沿着相机射线的积分计算得出，从而生成逼真的背景图像。此外，城市背景生成器还结合了重建损失、感知损失和对抗损失进行优化，以提高生成图像的质量。

建筑实例生成器同样采用鸟瞰图表示法，并针对建筑物的独特视觉特征进行了优化。它通过提取城市布局中建筑物的局部窗口，并利用全局编码器和局部编码器生成像素级特征，然后结合位置编码和风格代码进行体积渲染。这种设计不仅能够捕捉建筑物的多样性和复杂性，还允许对建筑物进行实例级编辑，为城市生成带来了更大的灵活性和可定制性。例如，用户可以根据需要修改建筑物的风格、高度或其他属性，而不会影响到其他场景元素。

车辆实例生成器是专门用于生成车辆实例的模块。它采用了基于规范特征空间的场景参数化方法，通过将车辆的3D点规范化到规范空间中，使得车辆的前端、后端和车身等结构特征能够保持一致性，同时又能够生成具有不同外观的车辆实例。在体积渲染过程中，车辆实例生成器同样利用风格代码来表示车辆外观的变化，并通过结合L1损失、感知损失和对抗损失进行优化，以生成逼真的车辆图像。

最后，CityDreamer4D通过一个内置的合成器将背景、建筑物和车辆实例等无缝地融合在一起，形成一个连贯且逼真的4D城市场景。这一框架不仅解决了现有方法的局限性，还为未来的城市生成技术提供了新的方向。