北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

AIGC动态1年前 (2024)发布 QbitAI

2,088 0 0

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

文章摘要

这篇文章介绍了北大和字节跳动合作开发的新方法——Visual Autoregressive Modeling（VAR），旨在改进图像生成的质量和效率。VAR采用了预测下一级分辨率的方式，取代了传统的预测下一个token的自回归方法。该方法分为两个阶段：首先使用VQ-VAE将图像编码为离散的token map，然后通过VAR Transformer预测更高分辨率的图像，以优化模型。VAR在图像生成质量、推理速度、数据效率和可扩展性等方面均超过了传统SOTA模型DiT。实验结果显示，VAR在ImageNet 256×256上将FID从18.65降至1.8，IS从80.4提高至356.4，同时提高了推理速度和数据效率。此外，VAR还展现出了与大语言模型相似的Scaling Laws和出色的零样本泛化能力。研究人员指出，采用这种方法，VAR更符合人类视觉感知的特点，能够保留图像的空间局部性。VAR的作者来自字节跳动AI Lab和北大王立威团队，包括田柯宇、袁泽寰和王立威等。他们的研究成果已经在GitHub上开源，引发了专业讨论。尽管有一些网友提出了一些问题，认为VAR在灵活性和分辨率上存在扩展问题，但该方法仍被认为是一种更便宜的通向Sora的潜在途径，可以降低计算成本。