颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源

AIGC动态1年前 (2024)发布 AIera

2,006 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

该文章介绍了一项名为Masked Diffusion Transformer V2的新技术，该技术在ImageNet基准测试中取得了1.58的FID分数，刷新了最新的SOTA。这项技术通过引入mask modeling表征学习策略，大幅提升了DiT的训练速度，解决了扩散模型在学习图像中物体语义关系时的低效问题。研究团队提出了Masked Diffusion Transformer（MDT）来增强Diffusion Transformer对上下文语义信息的学习能力，同时加强图像中物体之间的语义信息关联学习。MDT通过VAE encoder将图片映射到latent空间，并在训练过程中引入mask modeling学习策略，以提高图像生成的质量和训练速度。实验结果显示，MDT在ImageNet 256基准下表现优异，训练速度比DiT快10倍以上，同时在生成质量上也有显著提升。MDT的新版本（MDTv2）进一步优化了diffusion和mask modeling的学习过程，提高了训练速度和生成质量。总体而言，MDT通过引入mask modeling表征学习方案，能够提升生成模型对物理世界的模拟效果，为统一表征学习和生成学习领域带来新的启发。

原文信息

【原文链接】 阅读原文
【阅读预估】 1889 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。