小红花·文摘

甲骨文 ARM 实例部署 Gemma 4 模型

Dejavu's Blog ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

FlashAttention-4震撼来袭，原生支持Blackwell GPU，英伟达的护城河更深了？

机器之心 ·

在TileLang中实现Flash Attention（比FA-2快1.3倍）：第一部分

Nathan Chen ·

本研究提出了FLASH-D，一种改进的变换器注意力机制，通过将Softmax计算与矩阵运算结合，显著提高了计算效率，降低了硬件面积和功耗，具有实际应用潜力。

FLASH-D: FlashAttention with Implicit Softmax Division

BriefGPT - AI 论文速递 ·

斯坦福大学CS336课程探讨了GPU在语言模型中的重要性，旨在让学生理解CUDA和GPU的工作原理，学习加速算法的方法。讲师强调内存访问效率，并介绍了低精度计算、操作融合和重计算等优化策略。课程还讨论了Flash Attention的实现，强调硬件在现代语言模型中的关键作用。

斯坦福大学CS336课程：从零开始的语言模型 | 2025年春季 | GPU

Josherich的博客 ·

FlashAttention通过优化注意力算法的内存使用，提升了性能。其核心在于分块处理K、V矩阵，并利用在线softmax技术减少内存读写，从而实现高效的注意力计算。

视觉指南揭示FlashAttention如何提高AI内存管理效率

DEV Community ·

本研究通过将模型参数存储在闪存中，提出“窗口化”和“行列捆绑”技术，减少数据传输，提高数据块大小，使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载，为内存有限设备上的LLMs推理提供新方法。

INT-FlashAttention：使Flash Attention适用于INT8量化

BriefGPT - AI 论文速递 ·

本文讨论了微软的Phi模型在小语言模型（SLM）家族中的优秀性能和多模态能力。Phi模型具有不同的参数规模和能力，包括Phi-1、Phi-1.5、Phi-2、Phi-3和Phi-3.5等多个代系。文章还介绍了Phi模型的需求和应用场景，以及一些“黑科技”如LongRoPE、MoE混合专家、DeepSpeed和Flash Attention等。此外，文章还提到了Phi模型与CLIP模型的结合以及Flash Attention技术的应用。

五分钟——了解SLM的优异代表Phi

dotNET跨平台 ·

从 transformer 到 FlashAttention 再到 PagedAttention(1)

学习让我快乐 ·

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

机器之心 ·

英伟达与FlashAttention-3合作，优化H100芯片，提升训练速度和计算吞吐量。FlashAttention-3通过IO感知优化和分块处理，充分利用Hopper架构特点。引入异步方式、乒乓调度和两阶段GEMM-softmax流水线方案等技术，提高GPU利用率。采用FP8精度、分块量化和非相干处理技术，提高计算精度。在测试中，FlashAttention-3在注意力基准测试和消融实验中表现出色，速度快3-16倍。

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

量子位 ·

该文章介绍了三种新的注意力机制，比标准的多头注意力更高效和具有更好的学习能力，提高了Transformer模型的性能和广泛部署能力。这些机制包括优化的注意力、高效的注意力和超级注意力，参数数量和矩阵乘法次数较少，在视觉和自然语言处理任务中表现更好。作者在多个数据集上对这些机制进行了评估。

FlashAttention-3: 快速和准确的异步低精度注意力

BriefGPT - AI 论文速递 ·

本文介绍了华为云Ascend C的FlashAttention算子性能优化实践，通过计算等价和切分有效降低HBM数据访问量，提升Attention处理性能。优化手段包括tiling基本块大小调整、核间负载均衡、CV流水并行、MTE2流水优化以及FixPipe流水优化等。实测在典型场景中性能提升4倍左右。开发者可参考此案例进行融合算子的性能优化。

基于Ascend C的FlashAttention算子性能优化最佳实践

华为云官方博客 ·

本文介绍了FlashAttention-2前向传递的优化实现，使用了自定义融合的CUDA内核，适应NVIDIA Hopper架构，并使用开源的CUTLASS库编写。通过解释在线softmax和连续的GEMM内核融合的挑战和技术，利用Hopper特定的Tensor Memory Accelerator（TMA）和Warpgroup Matrix-Multiply-Accumulate（WGMMA）指令，定义和转换CUTLASS布局和张量，重叠复制和GEMM操作，并选择最优瓦片大小，平衡寄存器压力和共享内存利用率。在单个H100 PCIe GPU上的对比性测试中，与针对上一代NVIDIA Ampere架构进行优化的FlashAttention-2版本相比，FLOPs/s高出20-50%。