文本直接生成多视角3D图像，Meta推出创新模型

AIGC动态1年前 (2024)发布 AIGCOPEN

2,683 0 0

文章摘要

该文章介绍了一个专注于AIGC领域的专业社区，关注微软 & OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地的平台。文章提到了文生图领域出现了一系列知名产品，如Midjourney、Stable Diffusion、DALL-E 3等。然而，在文本生成多视角 3D图像方面存在技术难点，Meta和德国慕尼黑工业大学的研究人员联合开发了创新模型——ViewDiff，能够生成高质量多视角3D图像，有助于游戏开发、元宇宙等行业快速构建模型。ViewDiff生成的图像在一致性和视觉质量方面表现出色，提升了FID和KID数据。

当前文本生成一致性、多视角3D图像面临三大难点：无法生成真实背景环境、生成图像质量和多样性不理想、缺乏多视角和一致性。ViewDiff使用创新架构，结合文生图模型和显式的3D建模，赋予图像生成一致性和多视角3D图像的能力。为了有效捕获3D几何和全局风格，研究人员增强了U-Net架构，添加了跨帧注意力层和投影层。跨帧注意力层实现了跨图像的风格匹配，而投影层将2D特征集成为3D体素特征，保证了输出图像的3D几何一致性。这些增强使得ViewDiff能够在各个尺度上对2D特征进行3D感知建模，实现多视图图像的风格协调，生成一致性、高质量的3D图像。

此外，ViewDiff还开发了自回归生成模块，允许在任意视角上生成更多的3D一致性图像。该模块通过编码器网络提取特征表示，然后送入解码器网络生成更高分辨率的图像。解码器不断迭代生成新的图像，使得ViewDiff能够在任意视角上生成更多的3D一致性图像。整体而言，ViewDiff通过创新架构和自回归生成模块解决了文本生成一致性、多视角3D图像的难题，为相关领域的发展带来了新的可能性。