大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
作者信息
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微 信 号】 almosthuman2014
文章摘要
【关 键 词】 大语言模型、MEDUSA、推理加速、解码头、普林斯顿
去年,普林斯顿、UIUC 等机构提出了一个比推测解码更高效的大语言模型推理加速方案 —— Medusa。现在,Medusa 的完整技术论文已经发布,并推出了新版本。Medusa 通过集成额外的解码头,能够同时预测多个 tokens,从而提高了大型语言模型(LLM)的推理效率。这种方法可以无缝集成到现有的 LLM 系统中,包括分布式环境,而不需要任何新模型。
Medusa 的核心在于它的解码头和树注意力机制。解码头可以与原始模型一起训练,而树注意力机制则能够同时处理多个候选者。研究者提出了两种微调策略:MEDUSA-1(冻结主干网络)和 MEDUSA-2(联合训练)。这些策略可以根据计算资源和用例的具体要求来选择。
实验结果显示,Medusa 能够在不影响生成质量的情况下,实现显著的推理加速。此外,Medusa 还可以与其他优化方法和混合加速方案集成,特别是在高性能计算卡如 A100 和 H100 上效果显著。
论文的共同作者之一,Tri Dao,是 Together.AI 的首席科学家,并即将成为普林斯顿大学计算机科学助理教授。他也是 Transformer 替代架构 Mamba 的作者之一。
Medusa 的研究和实现表明,它是一个优雅且有效的 LLM 推理加速解决方案,能够在实际应用中实现显著的性能提升。
原文信息
【原文链接】 阅读原文
【原文字数】 2590
【阅读时长】 9分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...