社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

AIGC动态2年前 (2024)发布 admin

2,780 0 0

作者信息

【原文作者】 Hugging Face
【作者简介】 The AI community building the future.
【微信号】 Hugging-Face

文章摘要

【关键词】 推理速度、注意力模块、Colossal-AI、SwiftInfer、大模型

第一段：介绍了麻省理工Guangxuan Xiao等人推出的StreamingLLM，能够在多轮对话中实现400万个token的流式输入，并提升了推理速度22.2倍。

第二段：讲述了StreamingLLM的优势和挑战，以及其通过观察注意力模块中Softmax的输出，解决了注意力 sink 的现象，提高了生成效果。

第三段：介绍了Colossal-AI团队开源的SwiftInfer，基于TensorRT实现了StreamingLLM，进一步提升了大模型推理性能。

第四段：详细描述了SwiftInfer基于TensorRT-LLM重新实现了KV Cache机制以及带有位置偏移的注意力模块，提高了运行效率。

第五段：指出了SwiftInfer可以进一步提升推理性能，最多带来额外的46%的推理吞吐速度提升，为大模型多轮对话推理提供了低成本、低延迟、高吞吐的最佳实践。

第六段：介绍了Colossal-AI社区的动态，包括其在GitHub上的排名和开源的Colossal-LLaMA-2-13B模型。

第七段：讲述了MoE模型的优势以及Colossal-AI通过EZ-MoE等优化，可提升MoE模型训练效率9倍，并开源相关代码与模型。

原文信息

【原文链接】 阅读原文
【原文字数】 1518
【阅读时长】 6分钟

# AIGC动态 # 大模型 # Colossal-AI # SwiftInfer # 大模型 # 推理速度 # 注意力模块

文章版权归作者所有，未经允许请勿转载。

机器人到来前，智能汽车可能是更早服务人类的 AI Agent

极客公园

1,455

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

机器之心

1,141

对话智谱CEO张鹏：大家对大模型期待过高，“Scaling Law”确实不再涨了｜钛媒体AGI

钛媒体AGI

1,981

关于AI你最关心什么？技术专家团亲自答（含往期真人纯享版）

量子位

2,493

基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC

极客公园

2,074

发展新质生产力，金融行业如何释放AI「模」力？

机器之心

2,870

暂无评论

暂无评论...

社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

作者信息

文章摘要

原文信息

最新 Hugging Face 强化学习课程（中文版）来啦！

OpenAI狂降价-良心发现还是另有玄机？

相关文章

暂无评论

热门网址

热门文章

社区供稿 | 多轮对话推理速度提升 46%，开源方案打破 LLM 多轮对话的长度限制

作者信息

文章摘要

原文信息

最新 Hugging Face 强化学习课程（中文版）来啦！

OpenAI狂降价-良心发现还是另有玄机？

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章