基于能量的Transformer横空出世!全面超越主流模型35%

AIGC动态14小时前发布 QbitAI
28 0 0
基于能量的Transformer横空出世!全面超越主流模型35%

 

文章摘要


【关 键 词】 AI模型能量Transformer思考

弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度上全面超越了Transformer++(基于Llama 2的Transformer优化版本)。EBT在离散(文本)和连续(视觉)模态下的表现比Transformer++提升了约35%,在推理过程中也提高了29%。这一突破性进展为AI模型模拟人类思考模式提供了新的可能性。

EBT的核心思想是通过能量最小化过程模拟人类的思考过程。模型从随机预测开始,通过梯度下降反复优化,直到能量收敛,从而动态决定“思考步数”。这种方法使模型具备了“想清楚再回答”的能力,类似于人类的决策过程。EBT基于EBM(Energy-Based Models)原理,通过学习一个能量函数,为每一种输入配置分配一个标量值。能量越低,表示输入变量之间的兼容性或概率越高;能量越高,则表示兼容性或概率越低。因此,能量函数可以被视为对输入数据一致性的验证器。

尽管EBM提供了灵活的建模框架,但如何实现大规模训练仍是一个未解决的研究难题。目前主要有两种训练方法——对比学习法和正则化方法。由于维度灾难问题,对比方法难以扩展。为此,研究人员将EBM学习转化为一个优化问题,通过隐式正则化能量空间,有效避免了维度灾难,实现了可扩展的学习。在这种方法中,EBM通过梯度下降将初始预测优化到真实解。Transformer因其并行性、稳定性和可扩展性优势,成为EBM的理想架构。基于此,研究者提出了EBT,包括两种变体:受GPT启发的解码器单向EBT,可用于自回归建模;具备双向注意力的双向EBT,支持填充和掩码建模。双向EBT实现较简单,而自回归EBT因信息泄漏问题实现较复杂。

研究者在六个不同维度上进行了扩展实验,包括数据量、批量大小、网络深度、参数量、计算量(FLOPs)和嵌入维度。在所有维度上,EBT一致优于Transformer++,成为首个在不更换分词器的情况下实现多维度超越Transformer++的模型。此外,随着训练时间的增加,EBT的思考能力也不断提升,其通过验证获得的性能提升从4%−8%增加到10%−14%。EBT的优势不仅限于单一模态,研究人员在视频任务中同样验证了这一点。研究者还将EBT与扩散模型在相对简单的图像去噪任务上进行了比较,结果显示EBT在性能上优于扩散模型,同时所需的前向计算次数减少了99%。

EBT通过引入基于能量的优化机制,为系统2思维的实现提供了新的思路,展现出良好的扩展性和较强的泛化能力。这一架构的提出,标志着AI模型在模拟人类思考模式方面迈出了重要一步。论文一作Alexi Gladstone和作者之一Yilun Du(杜逸伦)的研究背景和成就进一步凸显了这一工作的学术价值和应用潜力。Gladstone专注于“系统2思维”、能量基模型(EBM)及多模态学习方向,而杜逸伦则活跃在生成模型与具身智能领域,致力于构建能够在物理世界中进行推理与决策的智能体。他们的研究为AI领域的发展提供了新的视角和方法。

原文和模型


【原文链接】 阅读原文 [ 1250字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...