Meta无限长文本大模型来了:参数仅7B,已开源
文章摘要
【关 键 词】 Meta、无限长文本、MEGALODON、Transformer、语言模型
Meta近日提出了一种名为MEGALODON的新型神经架构,用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次复杂度和长度外推能力弱的问题。虽然之前有线性注意力和状态空间模型等解决方案,但它们在预训练效率和下游任务准确性方面的表现并不理想。MEGALODON的提出,旨在提高大规模语言模型在长文本处理上的能力和效率。
MEGALODON继承了MEGA架构,并引入了多种技术组件,包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和具有两个特征的预归一化残差配置。这些技术的应用使得MEGALODON在70亿参数和2万亿训练token的规模上,相比于传统的Transformer模型,展现出更好的训练效率和更低的训练损失。
MEGALODON的核心创新之一是复数指数移动平均(CEMA),它将传统的多维阻尼EMA扩展到复数域,从而提高了模型捕获长距离依赖的能力。此外,MEGALODON还引入了时间步归一化层,该层通过计算累积均值和方差,将组归一化扩展到自回归序列建模任务。为了提高模型的稳定性,MEGALODON采用了归一化注意力机制,并通过重新排列残差连接,引入了具有two-hop特征的预归一化配置。
在实验中,MEGALODON在长上下文序列建模的可扩展性和效率方面表现出色。与LLAMA2模型相比,MEGALODON在长上下文QA任务和多种基准测试中都展现了其对无限长度序列建模的能力。此外,MEGALODON在短上下文评估、长上下文评估、指令微调和中等规模基准评估中均取得了优异的性能。
MEGALODON的提出不仅在学术上具有重要意义,而且对于实际应用中处理长文本数据的大型语言模型的发展具有重要的推动作用。更多的细节和技术细节可以在论文原文中找到。
原文和模型
【原文链接】 阅读原文 [ 2174字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★