Sora出圈，背后DiT也火了！作者NYU谢赛宁官宣全新升级版SiT

AIGC动态2年前 (2024)发布 AIera

2,205 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 SiT、DiT、图像生成、扩散模型、插值方法

新智元报道了扩散Transformer（DiT）的升级版——可扩展插值Transformer（SiT）。SiT在质量、处理速度和使用灵活性方面都有显著提升。OpenAI的视频生成模型Sora基于DiT框架设计，而SiT则在此基础上实现了更好的性能。SiT提供了一种更灵活的方法来连接不同的数据分布，允许从多个角度优化生成模型的设计。在ImageNet 256×256的基准测试中，SiT展现了卓越的图像生成能力，通过调整扩散系数，达到了2.06的FID-50K分数。

流与扩散模型近年来成为焦点，它们将噪声转化为具有特定分布的数据。SiT框架提供了一种新的方法，使得在x*和ε之间进行插值更加灵活。研究表明，扩散和基于流的方法在相同的条件下遵循相同的时间发展过程。团队还探讨了这些模型组件对性能的影响，并解决了在缺少明确前向SDE的情况下，基于流的方法如何进行有效采样的问题。

在设计SiT时，需要考虑时间空间、模型预测、插值器和采样器四个方面。团队对这些方面进行了深入研究，发现连续时间的评分方式能带来性能提升，速度模型与评分模型之间存在随时间变化的权重函数。此外，不同的插值方法对性能有显著影响，而最优的扩散系数取决于插值方法和目标。最后，团队还提出了无分类器引导的方法，这种方法在SiT中同样有效。

总的来说，SiT的推出为图像生成领域带来了新的突破，其灵活性和性能的提升为未来的研究和应用提供了新的可能性。