机器之心 ·

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

FlashAttention-3是一种快速且内存高效的注意力算法，用于加速语言模型。它利用三种主要技术来加速Hopper GPU的注意力：warp-specialization、交错块矩阵乘法和softmax操作，以及对低精度FP8的硬件支持。FlashAttention-3的速度达到了740 TFLOPS，比FlashAttention-2快1.5-2.0倍，可以在语言模型中使用更长的上下文。它提高了GPU利用率，以更低的精度提供更好的性能，并实现了对更长文本段的高效处理。文章还讨论了Hopper GPU的硬件特性以及异步和低精度处理的好处。

🎯

关键要点

FlashAttention-3是一种快速且内存高效的注意力算法，用于加速语言模型。
FlashAttention-3利用warp-specialization、交错块矩阵乘法和softmax操作，以及对低精度FP8的硬件支持来加速Hopper GPU的注意力。
FlashAttention-3的速度达到了740 TFLOPS，比FlashAttention-2快1.5-2.0倍。
FlashAttention-3提高了GPU利用率，能够在较低精度下提供更好的性能。
FlashAttention-3使得AI模型能够更有效地处理更长的文本片段。
Hopper GPU的硬件特性包括WGMMA、TMA和FP8，能够最大限度地提高性能。
异步处理使得GEMM和softmax操作能够重叠，从而提高计算效率。
非相干处理技术通过分散极端值来减少量化误差，提升了模型的精度。
实验结果显示FlashAttention-3在FP16精度下速度是FlashAttention-2的1.5-2.0倍，FP8接近1.2 PFLOPS。

❓

延伸问答

FlashAttention-3的主要技术是什么？

FlashAttention-3主要利用warp-specialization、交错块矩阵乘法和softmax操作，以及对低精度FP8的硬件支持来加速Hopper GPU的注意力。

FlashAttention-3相比于FlashAttention-2的速度提升是多少？

FlashAttention-3的速度达到了740 TFLOPS，比FlashAttention-2快1.5-2.0倍。

FlashAttention-3如何提高GPU的利用率？

FlashAttention-3提高了GPU利用率，使H100的理论最大FLOPS利用率达到75%，而之前仅为35%。

使用FlashAttention-3有什么优势？

使用FlashAttention-3可以在较低精度下提供更好的性能，并能够更有效地处理更长的文本片段。

Hopper GPU的硬件特性有哪些？

Hopper GPU的硬件特性包括WGMMA、TMA和FP8，这些特性能够最大限度地提高性能。

FlashAttention-3如何处理量化误差？

FlashAttention-3采用非相干处理技术，通过将查询和键与随机正交矩阵相乘来减少量化误差。

🏷️

继续阅读

保时捷Cayenne Coupe Turbo甚至会让911车主感到紧张
保时捷新款Cayenne Coupe Turbo更紧凑且更强大，拥有1139马力和1106磅-英尺的扭矩，成为史上最强保时捷。其电动版本加速迅猛，0-60...
奥迪 R8 继任者发布！大 V8+千匹马力，走的却是复古风
奥迪重新走向「运动」#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
提高文本处理和实体识别效率的三种SpaCy技巧
In this article, we will explore three essential spaCy tricks that every deve...
我用彩色配件定制了一台MacBook Neo
苹果的MacBook Neo是最便宜、色彩丰富且易于维修的笔记本电脑。用户可以自行更换彩色配件，尽管成本较高。作者尝试定制Neo，替换触控板、底壳和键帽，...
阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...