Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

AIGC动态1年前 (2024)发布 AIera

1,561 0 0

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

文章摘要

【关键词】 FlashAttention-3、GPU优化、注意力机制、大型语言模型、性能提升

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术，它在前一代的基础上实现了1.5至2倍的速度提升，将H100 GPU的FLOPs利用率提高到了75%。

FlashAttention-3通过三种主要技术加速了注意力机制：利用Tensor Cores和TMA的异步性、warp-specialization技术、交替进行块状矩阵乘法和softmax操作，以及利用硬件支持的FP8低精度非相干处理。

这项技术的进步带来了更高效的GPU利用率，提高了LLM的训练和运行速度，同时也支持了更长上下文的应用。

Hopper GPU的新特性，包括WGMMA、TMA和FP8，为FlashAttention-3提供了强大的硬件支持。

FlashAttention-3的实现还包括了对softmax操作的优化，通过乒乓调度和在单个warp组内重叠GEMM和Softmax，进一步提高了性能。

在基准测试中，FlashAttention-3在FP16精度下相对于FlashAttention-2显示出显著的加速效果。

FlashAttention-3目前主要针对训练过程进行优化，未来的工作可以继续提升推理性能，并推广到Hopper GPU以外的其他硬件架构。

原文和模型

【原文链接】 阅读原文 [ 3047字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # FlashAttention-3 # GPU优化 # 大型语言模型 # 性能提升 # 注意力机制

文章版权归作者所有，未经允许请勿转载。

1+1>2：复旦大学团队“硅基-二维”异质嵌入式DRAM，开创二维半导体应用新篇章

admin

876

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

新智元

1,913

全球最大芯片，进军推理：1800 token/秒，全球最快

admin

2,231

国内外AI(LLMs)排行榜，GPT-4各项排第一！

admin

984

“云计算一哥”一口气发布6个大模型、3nm芯片！多模态还要搞Any-to-Any

量子位

1,997

跟大厂拼价格到底！智谱AI 宣布模型全面降价，刘慈欣、AI 老罗线上“整活儿”

AI前线

2,068

暂无评论

暂无评论...

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

文章摘要

原文和模型

创业者复盘：如何判断出海 AI 产品该不该立项？

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

相关文章

暂无评论

热门网址

热门文章

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

文章摘要

原文和模型

创业者复盘：如何判断出海 AI 产品该不该立项？

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章