谁将替代 Transformer？

AIGC动态1年前 (2024)发布 aitechtalk

2,668 0 0

文章摘要

【关键词】 人工智能、Transformer、非Transformer、模型研究、技术发展

本文主要探讨了非Transformer架构在人工智能领域的发展和挑战。Transformer架构由于其处理局部和长程依赖关系的能力以及可并行化训练的特点，已经成为了自然语言处理前沿研究的标准范式。然而，Transformer的自注意力机制带来了挑战，主要是由于其二次复杂度造成的，这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。

基于Transformer的局限性，许多非Transformer架构顺势提出，如中国的RWKV、Meta的Mega、微软亚研的Retnet、Mamba、DeepMind团队的Hawk和Griffin等。这些架构大多在原来的RNN基础上，针对Transformer的缺陷和局限性来做改进，试图研究出所谓的「高效Transformer」（efficient Transformer）结构，一个更像人类思考的架构。

然而，非Transformer架构面临的挑战是，当它们的规模被放大到今天Transformer模型的大小时，是否还能继续展示出强大的性能和效率提升？目前，非Transformer架构的研究和开发主要集中在学术界和创业团队，大公司很少投入大的团队来研究新架构。此外，Transformer的生态护城河也是非Transformer架构面临的一个大阻碍。

总的来说，虽然Transformer的地位依然无可撼动，但是非Transformer架构的研究和开发正在如火如荼地进行。打破垄断固然不易，但根据科技发展的规律，很难有一个架构能永远一统江湖。未来，非Transformer需要继续证明自己的天花板有多高，Transformer架构也同样如此。