何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与

AIGC动态5个月前发布 QbitAI
860 0 0
何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与

 

文章摘要


【关 键 词】 何恺明自回归扩散模型图像生成团队成员

何恺明在加入麻省理工学院(MIT)担任副教授后,首次独立带队完成了一项新的研究工作,提出了一种新的图像生成方法。该方法通过让自回归模型抛弃传统的矢量量化,转而使用连续值生成图像,并借鉴扩散模型的思想,提出了名为Diffusion Loss的损失函数。

传统的自回归图像生成模型通常依赖于矢量量化方法,如DALL·E一代使用的VQ-VAE方法。然而,何恺明团队发现,自回归生成的本质是根据先前的值预测下一个token,这与值是离散还是连续没有必然联系。关键在于对token的概率分布进行建模,只要该概率分布可以通过损失函数来测量并用于抽取样本即可。

矢量量化方法存在一些问题,如需要一个离散的token词表,训练困难,对梯度近似策略敏感,量化误差会导致信息损失,影响图像质量。为了解决这些问题,何恺明团队提出了Diffusion Loss,消除了离散tokenizer的必要性,使得在连续值空间中应用自回归模型生成图像成为可能。

具体来说,团队让自回归模型输出一个潜变量z作为条件,去训练一个小型的去噪MLP网络。通过反向扩散过程,这个小网络学会了如何根据z去采样生成连续值的token x。扩散过程能够建模任意复杂的分布,没有类别分布的局限。去噪网络和自回归模型是端到端联合训练的,链式法则直接把损失传给自回归模型,使其学会输出最佳的条件z。

这项工作还统一了各种自回归模型的变体,包括标准的自回归AR、随机顺序的AR以及掩码自回归(MAR)模型。掩码自回归模型可以在任意随机位置同时预测多个token,并且与扩散损失完美配合。在这个统一的框架下,所有变体本质上都是在已知token的基础上预测未知token,都是广义的自回归模型,因此扩散损失都能适用。

通过消除矢量量化,团队训练的图像生成模型获得了强大的结果,同时享受序列建模的速度优势。实验结果表明,扩散损失比交叉熵损失稳定带来2-3倍的提升。小模型的FID分数达到1.98,大模型更是创下了1.55的SOTA。生成256×256图像的速度也很快,不到0.3秒一张。

此外,何恺明团队的成员包括黎天鸿和邓明扬。黎天鸿是清华姚班校友,MIT博士生在读,将于2024年9月加入何恺明的课题组担任博士后。邓明扬是MIT本科数学和计算机科学专业在读,曾获得IMO和IOI双料金牌,目前研究重点是机器学习,特别是生成式基础模型。

何恺明还在AI for Science方向上有所探索,参与了一篇强化学习与量子物理学方向的论文,利用Transformer模型处理量子比特对的序列信息,显著提升了量子系统性能。这表明何恺明在计算机视觉和AI for Science两个领域都取得了重要进展。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2064字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...