大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

AIGC动态2年前 (2024)更新 almosthuman2014

3,542 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

去年，普林斯顿、UIUC 等机构提出了一个比推测解码更高效的大语言模型推理加速方案 —— Medusa。现在，Medusa 的完整技术论文已经发布，并推出了新版本。Medusa 通过集成额外的解码头，能够同时预测多个 tokens，从而提高了大型语言模型（LLM）的推理效率。这种方法可以无缝集成到现有的 LLM 系统中，包括分布式环境，而不需要任何新模型。

Medusa 的核心在于它的解码头和树注意力机制。解码头可以与原始模型一起训练，而树注意力机制则能够同时处理多个候选者。研究者提出了两种微调策略：MEDUSA-1（冻结主干网络）和 MEDUSA-2（联合训练）。这些策略可以根据计算资源和用例的具体要求来选择。

实验结果显示，Medusa 能够在不影响生成质量的情况下，实现显著的推理加速。此外，Medusa 还可以与其他优化方法和混合加速方案集成，特别是在高性能计算卡如 A100 和 H100 上效果显著。

论文的共同作者之一，Tri Dao，是 Together.AI 的首席科学家，并即将成为普林斯顿大学计算机科学助理教授。他也是 Transformer 替代架构 Mamba 的作者之一。

Medusa 的研究和实现表明，它是一个优雅且有效的 LLM 推理加速解决方案，能够在实际应用中实现显著的性能提升。