RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

AIGC动态2年前 (2024)发布 AIera

1,454 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 RWKV、Eagle 7B、多语言、RNN架构、环保模型

RWKV团队强调了多语言支持的重要性，他们的目标是构建一个包容性的AI，不仅服务于英语世界，而是为全球人口提供帮助。他们计划逐渐扩大多语言数据集，以支持更广泛的语言，并最终覆盖全球所有地区。RWKV架构结合了RNN和Transformer的优点，提供了出色的性能、快速推理、快速训练、节省VRAM、“无限”上下文长度和免费的句子嵌入，且不使用注意力机制。RWKV的计算成本随着Token数线性增长，这表明在训练数据规模相同的情况下，RWKV的性能与Transformer相近。研究人员提出，数据对模型性能的提升可能比架构更重要，因此寻求更高效、可扩展的架构是降低人工智能成本和环境影响的关键。