文本直接生成多视角3D图像,Meta推出创新模型

AIGC动态8个月前发布 AIGCOPEN
1,320 0 0
文本直接生成多视角3D图像,Meta推出创新模型

 

文章摘要


【关 键 词】 文本生成多视角3D图像一致性创新架构

该文章介绍了一个专注于AIGC领域的专业社区,关注微软 & OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地的平台。文章提到了文生图领域出现了一系列知名产品,如Midjourney、Stable Diffusion、DALL-E 3等。然而,在文本生成多视角3D图像方面存在技术难点,Meta和德国慕尼黑工业大学的研究人员联合开发了创新模型——ViewDiff,能够生成高质量多视角3D图像,有助于游戏开发、元宇宙等行业快速构建模型。ViewDiff生成的图像在一致性和视觉质量方面表现出色,提升了FID和KID数据。

当前文本生成一致性、多视角3D图像面临三大难点:无法生成真实背景环境、生成图像质量和多样性不理想、缺乏多视角和一致性。ViewDiff使用创新架构,结合文生图模型和显式的3D建模,赋予图像生成一致性和多视角3D图像的能力。为了有效捕获3D几何和全局风格,研究人员增强了U-Net架构,添加了跨帧注意力层和投影层。跨帧注意力层实现了跨图像的风格匹配,而投影层将2D特征集成为3D体素特征,保证了输出图像的3D几何一致性。这些增强使得ViewDiff能够在各个尺度上对2D特征进行3D感知建模,实现多视图图像的风格协调,生成一致性、高质量的3D图像。

此外,ViewDiff还开发了自回归生成模块,允许在任意视角上生成更多的3D一致性图像。该模块通过编码器网络提取特征表示,然后送入解码器网络生成更高分辨率的图像。解码器不断迭代生成新的图像,使得ViewDiff能够在任意视角上生成更多的3D一致性图像。整体而言,ViewDiff通过创新架构和自回归生成模块解决了文本生成一致性、多视角3D图像的难题,为相关领域的发展带来了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1072字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...