RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多

AIGC动态4个月前发布 AIera
329 0 0

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
 

文章摘要


【关 键 词】 RWKVEagle 7B多语言RNN架构环保模型

RWKV团队强调了多语言支持的重要性,他们的目标是构建一个包容性的AI,不仅服务于英语世界,而是为全球人口提供帮助。他们计划逐渐扩大多语言数据集,以支持更广泛的语言,并最终覆盖全球所有地区。RWKV架构结合了RNN和Transformer的优点,提供了出色的性能、快速推理、快速训练、节省VRAM、“无限”上下文长度和免费的句子嵌入,且不使用注意力机制。RWKV的计算成本随着Token数线性增长,这表明在训练数据规模相同的情况下,RWKV的性能与Transformer相近。研究人员提出,数据对模型性能的提升可能比架构更重要,因此寻求更高效、可扩展的架构是降低人工智能成本和环境影响的关键。

原文信息


【原文链接】 阅读原文
【原文字数】 1739
【阅读时长】 6分钟

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...