作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 SiT、DiT、图像生成、扩散模型、插值方法
新智元报道了扩散Transformer(DiT)的升级版——可扩展插值Transformer(SiT)。SiT在质量、处理速度和使用灵活性方面都有显著提升。OpenAI的视频生成模型Sora基于DiT框架设计,而SiT则在此基础上实现了更好的性能。SiT提供了一种更灵活的方法来连接不同的数据分布,允许从多个角度优化生成模型的设计。在ImageNet 256×256的基准测试中,SiT展现了卓越的图像生成能力,通过调整扩散系数,达到了2.06的FID-50K分数。
流与扩散模型近年来成为焦点,它们将噪声转化为具有特定分布的数据。SiT框架提供了一种新的方法,使得在x*和ε之间进行插值更加灵活。研究表明,扩散和基于流的方法在相同的条件下遵循相同的时间发展过程。团队还探讨了这些模型组件对性能的影响,并解决了在缺少明确前向SDE的情况下,基于流的方法如何进行有效采样的问题。
在设计SiT时,需要考虑时间空间、模型预测、插值器和采样器四个方面。团队对这些方面进行了深入研究,发现连续时间的评分方式能带来性能提升,速度模型与评分模型之间存在随时间变化的权重函数。此外,不同的插值方法对性能有显著影响,而最优的扩散系数取决于插值方法和目标。最后,团队还提出了无分类器引导的方法,这种方法在SiT中同样有效。
总的来说,SiT的推出为图像生成领域带来了新的突破,其灵活性和性能的提升为未来的研究和应用提供了新的可能性。
原文信息
【原文链接】 阅读原文
【原文字数】 1853
【阅读时长】 7分钟