扩散模型攻克算法难题，AGI不远了！谷歌大脑找到迷宫最短路径

AIGC动态1年前 (2024)发布 AIera

2,875 0 0

文章摘要

新智元最近报道了一项有趣的研究，一位博士研究人员利用「离散扩散」模型解决了图像表示迷宫中的最短路径问题。这项实验通过反复添加水平和垂直墙生成迷宫，随机选取起始点和目标点，并从起点到目标点的最短路径中随机采样一条作为解决方案。最短路径是通过精确算法计算得出的，然后使用离散扩散模型和U-Net来消除迷宫的噪声，编码起点和目标点。这种方法即使在更复杂的迷宫中也表现出色。

研究中，为了估算去噪步骤，算法会估算 p(x_0 | x_t)，并在这个过程中可视化估计值，显示当前假设，并最终聚焦在结果上。英伟达的高级科学家Jim Fan认为这是一个有趣的实验，表明扩散模型可以作为算法的「渲染器」，它能够仅从像素实现迷宫遍历，甚至使用了比Transformer弱得多的U-Net。这表明渲染器本身也能编码复杂的顺序算法。这个实验引起了网友的极大兴趣，有人甚至认为一旦有人在足够好的数据集上训练扩散Transformer，人工通用智能（AGI）就能得到解决。作者表示这项研究将在稍后更新到arxiv上。

报告还提到「生成模型」是机器学习中的核心问题，它不仅用于衡量捕获自然数据集统计数据的能力，还用于生成图像、文本和语音等高维数据的应用。目前，扩散模型已成为图像和音频生成领域最受欢迎的替代方案之一，它在样本质量和对数似然方面与GAN和自回归模型相当，但需要更少的推理步骤。

谷歌研究团队提出了一种新的离散去噪扩散概率模型（D3PM），证明了过度矩阵的选择对于改善图像和文本领域的结果至关重要。他们还提出了一种新的损失函数，结合了变分下界和辅助的交叉熵损失。这个模型在字符级文本生成方面取得了很好的效果，并能够扩展到大词汇量的LM1B数据集上。在CIFAR-10图像数据集上，最新模型接近了连续空间DDPM模型的样本质量，并超过了连续空间DDPM模型的对数似然。

最后，报告介绍了项目作者Arnaud Pannatier，他从2020年3月开始在François Fleuret的机器学习小组攻读博士学位。他最近开发了HyperMixer，这是一个超级网络，使MLPMixer能够处理各种长度的输入，并证明了它给了模型一种随着输入长度线性扩展的注意力行为。Pannatier在EPFL获得了物理学学士学位和计算机科学与工程硕士学位。