
文章摘要
【关 键 词】 分形模型、高分辨率、图像生成、神经网络、计算效率
何恺明团队近期在生成模型领域取得了重大突破,提出了一种名为分形生成模型(Fractal Generative Models)的全新范式。该模型首次实现了逐像素生成高分辨率图像的可能性,其核心思想是将生成模型抽象为可复用的“原子模块”,并通过递归调用这些模块构建出自相似的分形架构。这种设计灵感来源于数学中的分形理论,类似于俄罗斯套娃的结构。
分形生成模型采用参数化的神经网络作为分形生成器,从数据中学习递归法则,以实现对高维非序列数据的建模。除了在计算机视觉领域的应用,该模型还可用于材料、蛋白质等领域。在逐像素图像生成任务中,分形生成模型展现出色的表现。通过“分而治之”的策略,将自回归模型抽象为模块化单元,实现了在只需要线性数量递归级别的情况下,生成输出的指数级增长。
在ImageNet 256×256数据集上,分形生成模型逐像素生成一张图仅需1.29秒。在ImageNet 64×64无条件生成任务中,该模型实现了3.14bits/dim的负对数似然,超越了此前最佳的自回归模型。在图像质量方面,FractalMAR-H模型达到了6.15的FID和348.9的Inception Score。更重要的是,分形架构将计算效率提高了4000倍,使得逐像素生成高分辨率图像成为可能。
此外,团队还探索了将掩码重建与分形生成模型结合的可能性,实验结果表明该方法能够准确预测被掩蔽的像素,并从类标签中捕获高级语义,将其反映在预测的像素中。这一成果由MIT何恺明团队和谷歌DeepMind全华人班底完成,得到了谷歌提供的TPU、GPU资源支持。一作为何恺明的学生黎天鸿,他的主要研究方向是表征学习、生成模型以及两者之间的协同作用。
原文和模型
【原文链接】 阅读原文 [ 1369字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆