颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

AIGC动态8个月前发布 AIera
729 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
 

文章摘要


【关 键 词】 MaskedTransformerMDT学习生成

该文章介绍了一项名为Masked Diffusion Transformer V2的新技术,该技术在ImageNet基准测试中取得了1.58的FID分数,刷新了最新的SOTA。这项技术通过引入mask modeling表征学习策略,大幅提升了DiT的训练速度,解决了扩散模型在学习图像中物体语义关系时的低效问题。研究团队提出了Masked Diffusion Transformer(MDT来增强Diffusion Transformer对上下文语义信息的学习能力,同时加强图像中物体之间的语义信息关联学习。MDT通过VAE encoder将图片映射到latent空间,并在训练过程中引入mask modeling学习策略,以提高图像生成的质量和训练速度。实验结果显示,MDTImageNet 256基准下表现优异,训练速度比DiT快10倍以上,同时在生成质量上也有显著提升。MDT的新版本(MDTv2)进一步优化了diffusionmask modeling的学习过程,提高了训练速度和生成质量。总体而言,MDT通过引入mask modeling表征学习方案,能够提升生成模型对物理世界的模拟效果,为统一表征学习和生成学习领域带来新的启发。

原文信息


【原文链接】 阅读原文
【阅读预估】 1889 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...