蚂蚁开源新算法,给大模型提提速!

AIGC动态10个月前发布 admin
2,952 0 0

作者信息


【原文作者】 HelloGitHub
【作者简介】 分享 GitHub 上有趣、入门级的开源项目。
【微 信 号】 GitHub520

蚂蚁开源新算法,给大模型提提速!

文章摘要


【关 键 词】 推理加速算法效果原理

这篇文章介绍了蚂蚁开源的Lookahead推理加速框架,该框架能够显著提高大型模型的推理速度,包括AntGLM 10B和Llama2-7B-chat模型。
文章详细介绍了该算法的加速效果和技术原理,通过多分支策略和trie树存储优化了推理过程,提高了生成token的效率。

最后,提到了蚂蚁 Lookahead 推理加速算法在检索增强生成(RAG)场景及公开数据集的测试结果:

  • 在蚂蚁内部的 RAG 数据集上,AntGLM10B 模型的加速比达到 5.36,token 生成速度 280 个/秒;

  • 在 Dolly15k 及 GSM8K 数据集上, 多个开源模型都有 2 倍以上的加速比,与此同时,显存增加和内存消耗几乎可以忽略。

该算法现已在 GitHub 上开源,相关论文也已公布在 ARXIV。感兴趣的同学可以阅读下相关论文了解更多技术细节,运行下源码查看效果。

论文地址:https://arxiv.org/abs/2312.12728

代码仓库:https://github.com/alipay/PainlessInferenceAcceleration

原文信息


【原文链接】 阅读原文
【原文字数】 1061
【阅读时长】 4分钟

© 版权声明

相关文章

暂无评论

暂无评论...