革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

AIGC动态1年前 (2024)发布 AIera

2,312 0 0

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

文章摘要

新智元报道了Meta、南加州大学（USC）、CMU和UCSD联合提出的革命性新架构Megalodon，旨在处理无限上下文，并在2万亿token训练任务中超越了Llama2-7B，展现出非凡的效率。Megalodon的设计旨在解决Transformer在处理长上下文时的限制，如二次复杂度和长度外推能力弱。该架构实现了高效训练和推理，同时保持恒定的KV缓存。在70亿参数和2万亿训练token任务中，Megalodon的训练效率和准确率均超过了Transformer，标志着AI领域的重大飞跃。网友和专家对Megalodon的出现表示了高度关注和赞赏，认为其无限上下文长度模拟了人类认知，是AGI的基础。Megalodon的设计包括复杂指数移动平均（CEMA）组件、时间步归一化层等创新技术，以提高模型处理复杂数据和序列数据的能力。实验评估显示，Megalodon在各种任务中表现优异，包括Long Range Arena、语音分类、图像分类和语言建模等。研究者总结了在大模型时代进行模型架构研究的经验教训，强调了在相同数据条件下比较不同架构的重要性，以及对大模型进行充分训练的必要性。他们指出，针对架构差异较大的模型，传统的基于flops的比较方法可能不再适用，而应更注重数据学习效率和计算效率的比较。在大模型时代，新算法的开发已经与系统工程高度结合。Megalodon的出现代表了AI领域的重要进展，为计算效率和性能带来了新的可能性。