LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

AIGC动态5天前发布 AIera
96 0 0
LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer 26年

 

文章摘要


【关 键 词】 注意力机制自然语言处理深度学习模型争议技术起源

自2017年Transformer模型问世以来,其核心机制“注意力”已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于注意力机制的起源存在争议。一方面,学界普遍认为“正统”的注意力机制来源于2014年Bengio的论文,ACM在图灵奖颁奖时也强调了Bengio引入注意力机制的贡献。另一方面,LSTM作者Jürgen Schmidhuber主张自己更早提出了相关概念,声称在1991年就已经提出线性复杂度Transformer,并在两年后提出术语“注意力”。他甚至在2023年12月发表报告,控诉图灵奖三巨头抄袭自己的研究成果。

尽管存在争议,Transformer模型的核心贡献在于引入Transformer神经网络,删除了除各种注意力机制之外的所有模块,并且基本上只是将其与多层感知机堆叠在ResNe中。论文中还有相当多的贡献和独特想法,包括位置编码、缩放注意力、多头注意力、极简设计等等,并且被广为接受。至今,业内普遍使用的模型架构仍然大体遵循2017年的原始版本,只是在部分模块进行了简单的修改。

谷歌杰出科学家Peyman Milanfar指出,记录、追溯完整的历史渊源是有价值的,如果不从更广泛的角度来理解“依赖于数据的加权平均运算”的重要性和普遍性,那追溯的历史也是不完整的。最极端的例子莫过于一位网友的评价,“其实,算术的出现要比这些论文都早。”

关于“注意力”的起源故事,2014年,Dzmitry Bahdanau在Yoshua Bengio的实验室开始实习,与Kyunghyun Cho的团队合作开发机器翻译模型。Dzmitry提出了建立一个带有两个“光标”的模型的想法,其中一个由BiRNN编码,在源序列中移动;另一个在目标序列中移动;光标轨迹使用动态规划进行边际化。最终,团队将这个架构称为RNNSearch,效果显著。后来,Yoshua在最后的一次修改中确定了“注意力机制”。一个半月后,团队发现Alex Graves发表的关于NMT论文的想法完全相同,但出发点完全不同。

总之,技术起源的是是非非很难辩个清楚。尽管存在争议,但注意力机制已经成为深度学习中实现灵活空间连接的自然方式,只要GPU的运算速度足够快,让科研人员有动力并认真对待深度学习,就会自然而然出现。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2706字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...