FlashAttention-3: 快速和准确的异步低精度注意力

通过使用新的硬件特性，我们开发了三种主要技术来加速注意力机制在 Hopper GPU 上的计算，从而实现 1.5-2.0 倍的加速，并展示了 FP8 达到接近 1.2 PFLOPs/s 的性能，同时比基线 FP8 注意力机制的数值误差低 2.6 倍。

该文章介绍了三种新的注意力机制，比标准的多头注意力更高效和具有更好的学习能力，提高了Transformer模型的性能和广泛部署能力。这些机制包括优化的注意力、高效的注意力和超级注意力，参数数量和矩阵乘法次数较少，在视觉和自然语言处理任务中表现更好。作者在多个数据集上对这些机制进行了评估。

Transformer模型广泛部署性能提升注意力机制评估