何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成

1,424 0 0

文章摘要

何恺明团队近期在生成模型领域取得了重大突破，提出了一种名为分形生成模型（Fractal Generative Models）的全新范式。该模型首次实现了逐像素生成高分辨率图像的可能性，其核心思想是将生成模型抽象为可复用的“原子模块”，并通过递归调用这些模块构建出自相似的分形架构。这种设计灵感来源于数学中的分形理论，类似于俄罗斯套娃的结构。

分形生成模型采用参数化的神经网络作为分形生成器，从数据中学习递归法则，以实现对高维非序列数据的建模。除了在计算机视觉领域的应用，该模型还可用于材料、蛋白质等领域。在逐像素图像生成任务中，分形生成模型展现出色的表现。通过“分而治之”的策略，将自回归模型抽象为模块化单元，实现了在只需要线性数量递归级别的情况下，生成输出的指数级增长。

在ImageNet 256×256数据集上，分形生成模型逐像素生成一张图仅需1.29秒。在ImageNet 64×64无条件生成任务中，该模型实现了3.14bits/dim的负对数似然，超越了此前最佳的自回归模型。在图像质量方面，FractalMAR-H模型达到了6.15的FID和348.9的Inception Score。更重要的是，分形架构将计算效率提高了4000倍，使得逐像素生成高分辨率图像成为可能。

此外，团队还探索了将掩码重建与分形生成模型结合的可能性，实验结果表明该方法能够准确预测被掩蔽的像素，并从类标签中捕获高级语义，将其反映在预测的像素中。这一成果由MIT何恺明团队和谷歌DeepMind全华人班底完成，得到了谷歌提供的TPU、GPU资源支持。一作为何恺明的学生黎天鸿，他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。