量子位 ·

英伟达最强B200算力浪费60%！普林斯顿团队出手，利用率升至71%

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

普林斯顿团队发现英伟达B200 GPU因软硬件不匹配导致60%算力浪费，利用率仅为20%-30%。经过FlashAttention-4算法优化后，利用率提升至71%。该算法通过改进指数运算和内存管理，显著提高计算效率，并将编译速度提升至30倍。

🎯

🔎

英伟达B200 GPU的算力浪费问题源于软硬件不匹配，导致其核心算力未能充分发挥。尽管B200的理论算力达到2.25 PFLOPS，但配套的计算单元未能同步升级，造成性能瓶颈。这一现象提醒用户在选择硬件时，需关注软硬件的兼容性与整体性能的平衡。

FlashAttention-4算法通过三大优化策略显著提升了B200的利用率，达到71%。其创新之处在于通过软件模拟和条件性softmax rescaling等方法，解决了指数运算和内存管理的瓶颈。这为开发者提供了一个优化现有硬件性能的有效方案，值得在类似场景中借鉴。

FlashAttention-4在编译速度上实现了显著提升，前向传播的编译时间缩短至2.5秒，反向传播降至1.4秒。这一变化不仅提高了开发效率，也使得算法在实际应用中更具竞争力。开发者在选择工具时，应考虑编译效率对项目进度的影响。

❓

英伟达B200 GPU因软硬件不匹配，算力浪费了60%。

FlashAttention-4算法通过改进指数运算和内存管理，将B200 GPU的利用率提升至71%。

B200 GPU的核心算力达到2.25 PFLOPS。

FlashAttention-4的编译速度提升至30倍，前向传播内核编译时间缩短至2.5秒。

B200 GPU的性能瓶颈在于配套计算单元未提升，导致指数运算和内存带宽未能同步升级。

FlashAttention-4算法采用了三大优化策略，包括提升指数运算效率、重构计算流水线和为下一代GPU预留优化空间。

🏷️