文章摘要
【关 键 词】 扩散模型、最短路径、迷宫算法、U-Net、生成模型
新智元最近报道了一项有趣的研究,一位博士研究人员利用「离散扩散」模型解决了图像表示迷宫中的最短路径问题。这项实验通过反复添加水平和垂直墙生成迷宫,随机选取起始点和目标点,并从起点到目标点的最短路径中随机采样一条作为解决方案。最短路径是通过精确算法计算得出的,然后使用离散扩散模型和U-Net来消除迷宫的噪声,编码起点和目标点。这种方法即使在更复杂的迷宫中也表现出色。
研究中,为了估算去噪步骤,算法会估算 p(x_0 | x_t),并在这个过程中可视化估计值,显示当前假设,并最终聚焦在结果上。英伟达的高级科学家Jim Fan认为这是一个有趣的实验,表明扩散模型可以作为算法的「渲染器」,它能够仅从像素实现迷宫遍历,甚至使用了比Transformer弱得多的U-Net。这表明渲染器本身也能编码复杂的顺序算法。这个实验引起了网友的极大兴趣,有人甚至认为一旦有人在足够好的数据集上训练扩散Transformer,人工通用智能(AGI)就能得到解决。作者表示这项研究将在稍后更新到arxiv上。
报告还提到「生成模型」是机器学习中的核心问题,它不仅用于衡量捕获自然数据集统计数据的能力,还用于生成图像、文本和语音等高维数据的应用。目前,扩散模型已成为图像和音频生成领域最受欢迎的替代方案之一,它在样本质量和对数似然方面与GAN和自回归模型相当,但需要更少的推理步骤。
谷歌研究团队提出了一种新的离散去噪扩散概率模型(D3PM),证明了过度矩阵的选择对于改善图像和文本领域的结果至关重要。他们还提出了一种新的损失函数,结合了变分下界和辅助的交叉熵损失。这个模型在字符级文本生成方面取得了很好的效果,并能够扩展到大词汇量的LM1B数据集上。在CIFAR-10图像数据集上,最新模型接近了连续空间DDPM模型的样本质量,并超过了连续空间DDPM模型的对数似然。
最后,报告介绍了项目作者Arnaud Pannatier,他从2020年3月开始在François Fleuret的机器学习小组攻读博士学位。他最近开发了HyperMixer,这是一个超级网络,使MLPMixer能够处理各种长度的输入,并证明了它给了模型一种随着输入长度线性扩展的注意力行为。Pannatier在EPFL获得了物理学学士学位和计算机科学与工程硕士学位。
原文和模型
【原文链接】 阅读原文 [ 1096字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆