量子位 ·

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

英伟达与FlashAttention-3合作，优化H100芯片，提升训练速度和计算吞吐量。FlashAttention-3通过IO感知优化和分块处理，充分利用Hopper架构特点。引入异步方式、乒乓调度和两阶段GEMM-softmax流水线方案等技术，提高GPU利用率。采用FP8精度、分块量化和非相干处理技术，提高计算精度。在测试中，FlashAttention-3在注意力基准测试和消融实验中表现出色，速度快3-16倍。

🎯

关键要点

英伟达与FlashAttention-3合作，优化H100芯片，提升训练速度和计算吞吐量。
FlashAttention-3通过IO感知优化和分块处理，充分利用Hopper架构特点。
引入异步方式、乒乓调度和两阶段GEMM-softmax流水线方案等技术，提高GPU利用率。
采用FP8精度、分块量化和非相干处理技术，提高计算精度。
FlashAttention-3在注意力基准测试和消融实验中表现出色，速度快3-16倍。
FlashAttention-3训练速度提升1.5-2倍，FP16下计算吞吐量高达740TFLOPs/s。
FlashAttention-3与英伟达、Meta、谷歌等合作，专门针对H100芯片优化。
FlashAttention-3通过IO感知优化减少内存读写操作次数，分块处理降低内存使用和计算复杂度。
FlashAttention-3引入异步方式和乒乓调度策略，提高GPU利用率。
FlashAttention-3采用分块量化和非相干处理技术，显著提高FP8精度下的计算精度。
FlashAttention-3的FP8实现精度提高了2.6倍，速度比标准Attention快16倍。
研究团队将继续推广FlashAttention-3到其他硬件，除了英伟达外，Meta等也提供了支持。

❓

延伸问答

FlashAttention-3如何提升H100芯片的训练速度？

FlashAttention-3通过IO感知优化和分块处理，提升训练速度1.5-2倍，FP16下计算吞吐量高达740TFLOPs/s。

FlashAttention-3在计算精度上有哪些改进？

FlashAttention-3采用FP8精度、分块量化和非相干处理技术，使FP8下的计算精度提高了2.6倍。

FlashAttention-3与前两代相比有哪些主要技术升级？

FlashAttention-3引入了异步方式、乒乓调度和两阶段GEMM-softmax流水线方案，显著提高GPU利用率。

FlashAttention-3在注意力基准测试中的表现如何？

FlashAttention-3在注意力基准测试中比标准Attention快3-16倍，尤其在中长序列上表现优异。

FlashAttention-3如何解决传统注意力机制的效率问题？

FlashAttention-3通过IO感知优化减少内存读写次数，并采用分块处理降低内存使用和计算复杂度。

FlashAttention-3的开源情况如何？

FlashAttention-3将开源，并已在PyTorch和Hugging Face中集成。

🏷️

继续阅读

明天高考了
如何把AI客服机器人接入网站？
“机器人调试好了，可怎么才能让它真正出现在我的网站上、跟访客对话起来？”当企业完成了 AI 客服机器人的搭建与训练，最后一步是把它接入网站，往往让不少非技...
如何设置AI客服机器人知识库？
设置 AI 客服机器人的知识库，从来不是“把 FAQ 文档导进去”那么简单，而是“如何科学地组织、构建和维护知识”的系统工程。
被微博禁言后，俞浩内部定调“踏实做实业”
【TechWeb】追觅科技在市场业绩与舆论场上经历了“冰火两重天”。一方面，不仅内部宣布了一季度扫地机器人登顶全球的捷报，更获权威机构数据背书；但另一方面...
如何优化AI客服机器人回复？
“机器人能听懂问题了，可回复要么干巴巴、要么不痛不痒，用户还是不满意。”这或许是许多团队在 AI 客服进入精细化运营阶段后最头疼的问题。理解用户只是第一步...
理想对比视频“秒下架”惹争议，蔚来高管硬刚：请证实真实性！
【TechWeb】近日，理想汽车发布了一则理想新L9 Livis与蔚来ES9在波浪路的底盘实测对比视频，然而视频上线不久便被迅速下架。这场“秒删”操作非但...