小红花·文摘

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

FlashAttention-4震撼来袭，原生支持Blackwell GPU，英伟达的护城河更深了？

机器之心 ·

本研究提出了FLASH-D，一种改进的变换器注意力机制，通过将Softmax计算与矩阵运算结合，显著提高了计算效率，降低了硬件面积和功耗，具有实际应用潜力。

FLASH-D: FlashAttention with Implicit Softmax Division

BriefGPT - AI 论文速递 ·

FlashAttention通过优化注意力算法的内存使用，提升了性能。其核心在于分块处理K、V矩阵，并利用在线softmax技术减少内存读写，从而实现高效的注意力计算。

FlashAttention解读

李文举 ·

视觉指南揭示FlashAttention如何提高AI内存管理效率

DEV Community ·

本研究通过将模型参数存储在闪存中，提出“窗口化”和“行列捆绑”技术，减少数据传输，提高数据块大小，使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载，为内存有限设备上的LLMs推理提供新方法。

INT-FlashAttention：使Flash Attention适用于INT8量化

BriefGPT - AI 论文速递 ·

从 transformer 到 FlashAttention 再到 PagedAttention(1)

学习让我快乐 ·

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

机器之心 ·

英伟达与FlashAttention-3合作，优化H100芯片，提升训练速度和计算吞吐量。FlashAttention-3通过IO感知优化和分块处理，充分利用Hopper架构特点。引入异步方式、乒乓调度和两阶段GEMM-softmax流水线方案等技术，提高GPU利用率。采用FP8精度、分块量化和非相干处理技术，提高计算精度。在测试中，FlashAttention-3在注意力基准测试和消融实验中表现出色，速度快3-16倍。

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

量子位 ·

该文章介绍了三种新的注意力机制，比标准的多头注意力更高效和具有更好的学习能力，提高了Transformer模型的性能和广泛部署能力。这些机制包括优化的注意力、高效的注意力和超级注意力，参数数量和矩阵乘法次数较少，在视觉和自然语言处理任务中表现更好。作者在多个数据集上对这些机制进行了评估。

FlashAttention-3: 快速和准确的异步低精度注意力

BriefGPT - AI 论文速递 ·

本文介绍了华为云Ascend C的FlashAttention算子性能优化实践，通过计算等价和切分有效降低HBM数据访问量，提升Attention处理性能。优化手段包括tiling基本块大小调整、核间负载均衡、CV流水并行、MTE2流水优化以及FixPipe流水优化等。实测在典型场景中性能提升4倍左右。开发者可参考此案例进行融合算子的性能优化。

基于Ascend C的FlashAttention算子性能优化最佳实践

华为云官方博客 ·

本文介绍了FlashAttention-2前向传递的优化实现，使用了自定义融合的CUDA内核，适应NVIDIA Hopper架构，并使用开源的CUTLASS库编写。通过解释在线softmax和连续的GEMM内核融合的挑战和技术，利用Hopper特定的Tensor Memory Accelerator（TMA）和Warpgroup Matrix-Multiply-Accumulate（WGMMA）指令，定义和转换CUTLASS布局和张量，重叠复制和GEMM操作，并选择最优瓦片大小，平衡寄存器压力和共享内存利用率。在单个H100 PCIe GPU上的对比性测试中，与针对上一代NVIDIA Ampere架构进行优化的FlashAttention-2版本相比，FLOPs/s高出20-50%。

CUDA 内核融合研究案例：在 NVIDIA Hopper 架构上使用 CUTLASS 库实现 FlashAttention-2

BriefGPT - AI 论文速递 ·

本文介绍了Multi-Query Attention技术，可共享Key和Value矩阵，提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异，本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%，微调后的模型效果更好。

通透理解FlashAttention与FlashAttention2：全面降低显存读写、加快计算速度

结构之法算法之道 ·