英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
原文中文,约3000字,阅读约需8分钟。发表于: 。FlashAttention-3是一种快速且内存高效的注意力算法,用于加速语言模型。它利用三种主要技术来加速Hopper GPU的注意力:warp-specialization、交错块矩阵乘法和softmax操作,以及对低精度FP8的硬件支持。FlashAttention-3的速度达到了740 TFLOPS,比FlashAttention-2快1.5-2.0倍,可以在语言模型中使用更长的上下文。它提高了GPU利用率,以更低的精度提供更好的性能,并实现了对更长文本段的高效处理。文章还讨论了Hopper GPU的硬件特性以及异步和低精度处理的好处。