Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

AIGC动态5个月前发布 AIera
724 0 0
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

 

文章摘要


【关 键 词】 FlashAttention-3GPU优化注意力机制大型语言模型性能提升

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。

FlashAttention-3通过三种主要技术加速了注意力机制:利用Tensor Cores和TMA的异步性、warp-specialization技术、交替进行块状矩阵乘法和softmax操作,以及利用硬件支持的FP8低精度非相干处理。

这项技术的进步带来了更高效的GPU利用率,提高了LLM的训练和运行速度,同时也支持了更长上下文的应用。

Hopper GPU的新特性,包括WGMMA、TMA和FP8,为FlashAttention-3提供了强大的硬件支持。

FlashAttention-3的实现还包括了对softmax操作的优化,通过乒乓调度和在单个warp组内重叠GEMM和Softmax,进一步提高了性能。

在基准测试中,FlashAttention-3在FP16精度下相对于FlashAttention-2显示出显著的加速效果。

FlashAttention-3目前主要针对训练过程进行优化,未来的工作可以继续提升推理性能,并推广到Hopper GPU以外的其他硬件架构。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3047字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...