何恺明新作再战AI生成：入职MIT后首次带队，奥赛双料金牌得主邓明扬参与

AIGC动态1年前 (2024)发布 QbitAI

2,550 0 0

文章摘要

何恺明在加入麻省理工学院（MIT）担任副教授后，首次独立带队完成了一项新的研究工作，提出了一种新的图像生成方法。该方法通过让自回归模型抛弃传统的矢量量化，转而使用连续值生成图像，并借鉴扩散模型的思想，提出了名为Diffusion Loss的损失函数。

传统的自回归图像生成模型通常依赖于矢量量化方法，如DALL·E一代使用的VQ-VAE方法。然而，何恺明团队发现，自回归生成的本质是根据先前的值预测下一个token，这与值是离散还是连续没有必然联系。关键在于对token的概率分布进行建模，只要该概率分布可以通过损失函数来测量并用于抽取样本即可。

矢量量化方法存在一些问题，如需要一个离散的token词表，训练困难，对梯度近似策略敏感，量化误差会导致信息损失，影响图像质量。为了解决这些问题，何恺明团队提出了Diffusion Loss，消除了离散tokenizer的必要性，使得在连续值空间中应用自回归模型生成图像成为可能。

具体来说，团队让自回归模型输出一个潜变量z作为条件，去训练一个小型的去噪MLP网络。通过反向扩散过程，这个小网络学会了如何根据z去采样生成连续值的token x。扩散过程能够建模任意复杂的分布，没有类别分布的局限。去噪网络和自回归模型是端到端联合训练的，链式法则直接把损失传给自回归模型，使其学会输出最佳的条件z。

这项工作还统一了各种自回归模型的变体，包括标准的自回归AR、随机顺序的AR以及掩码自回归（MAR）模型。掩码自回归模型可以在任意随机位置同时预测多个token，并且与扩散损失完美配合。在这个统一的框架下，所有变体本质上都是在已知token的基础上预测未知token，都是广义的自回归模型，因此扩散损失都能适用。

通过消除矢量量化，团队训练的图像生成模型获得了强大的结果，同时享受序列建模的速度优势。实验结果表明，扩散损失比交叉熵损失稳定带来2-3倍的提升。小模型的FID分数达到1.98，大模型更是创下了1.55的SOTA。生成256×256图像的速度也很快，不到0.3秒一张。

此外，何恺明团队的成员包括黎天鸿和邓明扬。黎天鸿是清华姚班校友，MIT博士生在读，将于2024年9月加入何恺明的课题组担任博士后。邓明扬是MIT本科数学和计算机科学专业在读，曾获得IMO和IOI双料金牌，目前研究重点是机器学习，特别是生成式基础模型。

何恺明还在AI for Science方向上有所探索，参与了一篇强化学习与量子物理学方向的论文，利用Transformer模型处理量子比特对的序列信息，显著提升了量子系统性能。这表明何恺明在计算机视觉和AI for Science两个领域都取得了重要进展。