Nathan Chen ·

在TileLang中实现Flash Attention（比FA-2快1.3倍）：第一部分

💡 原文英文，约2600词，阅读约需10分钟。

📝

内容提要

本文介绍了在TileLang中实现Flash Attention的前向传播，强调其内核设计、内存分配和计算过程。TileLang的性能比FlashAttention-2快1.3倍，达到630 TFLOPS/s，主要通过优化内存访问和计算并行性来提升性能。

🎯

❓

TileLang的Flash Attention实现比FlashAttention-2快1.3倍，达到630 TFLOPS/s，主要通过优化内存访问和计算并行性来提升性能。

TileLang使用高效的内存分配策略，将数据从高延迟的HBM转移到快速的SRAM中，以提高计算速度。

TileLang的内核设计采用了GPU的层次结构，利用共享内存和寄存器来减少延迟，确保计算单元的高效利用。

TileLang通过使用bfloat16和float混合精度，以最大化算术吞吐量，确保与硬件指令的最佳匹配。

TileLang通过软件流水线技术，能够隐藏内存访问的延迟，从而提高整体性能。

TileLang在性能测试中显示出比Flash Attention 2更快的速度，具体表现为在相同问题规模下的更低延迟和更高TFLOPS。

🏷️

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断
DeepSeek发布的Tile Kernels通过TileLang优化GPU性能，打破了CUDA的垄断，推动AI工程从模型设计转向系统能力。TileLan...
如何使用Jaeger v2 追踪多智能体AI群体
本文介绍了如何使用Jaeger v2和OpenTelemetry为Claude Forge多智能体系统设置分布式追踪。通过追踪智能体操作，可以识别问题、优...
Living Clojure
还不错的 Clojure 入门书籍，适合有较强编程基础（我认为至少要熟悉一两门编程语言，有实际开发经验）的人用来快速了解 Clojure 各方面的特性和编...
图达通在北京车展展示全矩阵激光雷达及感知方案
（全球TMT2026年4月24日讯）2026北京国际汽车展览会开幕，图达通展示全矩阵激光雷达及感知方案。图达通 […]
约束或自由：AI 工具化的两种答案
大模型在对话文本中表现优异，但缺乏实际操作能力。为实现AI的实际应用，需要赋予其行动能力，主要有两种技术路线：MCP和Skills。MCP注重标准化和安全...
思享无限2025财年营收为人民币12.416亿元
（全球TMT2026年4月24日讯）思享无限控股有限公司对外公布截至2025年12月31日财政年度财务业绩。2 […]