Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强

AIGC动态1天前发布 AIera
52 0 0
Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强

 

文章摘要


【关 键 词】 图像生成自回归模型ARINAR分形生成性能提升

澳大利亚国立大学的研究团队提出了一种全新的图像生成模型ARINAR,该模型在生成质量和速度上均取得了显著提升。ARINAR全称为双层自回归逐特征生成模型,其核心思想是通过逐特征生成的方式生成图像表示,从而简化了传统自回归模型的复杂度。与何凯明团队提出的分形生成模型类似,ARINAR也采用了双层自回归结构,但在性能和速度上表现更为优异。实验结果显示,ARINAR在ImageNet 256×256图像生成任务中,FID(Frechet Inception Distance)得分从11.8提升至2.75,生成时间从2分钟缩短至12秒,显著超越了现有的扩散模型和自回归模型MAR。

ARINAR的设计分为外层和内层自回归结构。外层自回归层负责生成token的条件向量,而内层自回归层则基于这些条件向量逐特征生成token。这种设计使得内层自回归模型只需专注于单个特征的生成,而不需要一次性建模整个token的复杂分布,从而大大简化了预测难度。与FractalMAR模型相比,ARINAR在潜在空间中生成图像,避免了像素空间的复杂性,因此在性能和速度上都取得了更好的结果。

研究人员在实验中使用了213M参数的ARINAR-B模型进行测试。结果显示,在不使用CFG(classifier-free guidance)的情况下,ARINAR-B的FID得分为9.17,使用CFG后提升至2.75,与当前最先进的MAR-B模型(FID=2.31)相当,且显著优于FractalMAR。在生成速度方面,ARINAR-B生成一张图像的平均时间仅为11.57秒,而MAR-B需要65.69秒,FractalMAR-B则需要137.62秒。这表明ARINAR在保持高质量生成的同时,显著提升了生成效率。

尽管ARINAR在图像生成任务中展示了巨大潜力,但其扩展性仍受到计算资源的限制。研究人员仅训练了一个基础模型(ARINAR-B),训练时间长达8天,且使用了4张A100 GPU。论文中提到,团队正在寻求更多计算资源以进行更大规模的实验和模型训练,未来可能会有更多研究成果发布,进一步验证ARINAR的潜力和可扩展性。

总体而言,ARINAR通过逐特征生成的方式,简化了自回归模型的复杂度,并在生成速度和生成质量之间实现了更好的平衡。这一研究为图像生成领域提供了新的思路,展示了自回归模型在高效生成高质量图像方面的巨大潜力。

原文和模型


【原文链接】 阅读原文 [ 1929字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...