刚拿下NeurIPS最佳论文,字节就开源VAR文生图版本,拿下SOTA击败扩散模型

AIGC动态2天前发布 QbitAI
444 0 0
刚拿下NeurIPS最佳论文,字节就开源VAR文生图版本,拿下SOTA击败扩散模型

 

文章摘要


【关 键 词】 自回归图像生成模型优化细节丰富推理速度

字节跳动商业化技术团队开发了一款名为Infinity的自回归文生图新模型,该模型在图像生成质量上超越了扩散模型,并在推理速度上继承了VAR的速度优势。Infinity模型采用了细粒度的bitwise tokenizer来建模图像空间,并将词表扩展到无穷大,从而增大了Image tokenizer的表示空间,提高了自回归文生图的上限。模型大小扩展到20B,其生成的图像细节丰富,能生成各种长宽比图像,解决了VAR不支持动态分辨率的问题。

Infinity在自回归方法中表现出色,超越了HART、LlamaGen、Emu3等方法,并在人类评测中以高比率击败了HART模型以及SOTA的扩散模型如PixArt-Sigma、SD-XL、SD3-Meidum等。其核心创新是提出了Bitwise Token的自回归框架,使用+1或-1构成的细粒度的“Bitwise Token”预测下一级分辨率,使得模型优化更容易,生成图像的细节更丰富。

Infinity还实现了无穷大词表扩展,通过丢掉索引直接预测比特,使得词表可以无限大,从而提升了Visual Tokenizer的效果。在模型缩放方面,Infinity表现出良好的scaling特性,更大的模型和更多的训练能够生成语义结构和高频细节更好的图像。此外,Infinity还提出了比特自我矫正技术,具有自我矫正的能力,缓解了自回归推理时的累计误差问题。

Infinity在推理速度上具有显著优势,2B模型生成1024×1024的图像用时仅为0.8秒,比同尺寸的SD3-Medium快3倍,比12B的Flux Dev快14倍。8B模型比同尺寸的SD3.5快7倍。20B模型生成1024×1024的图像用时3秒,比12B的Flux Dev快近4倍。Infinity的训练和推理代码、demo、模型权重已在GitHub上线,同时提供了网站体验。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2124字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...