新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

机器之心 ·

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

PyTorch团队引入了FlexAttention，一个灵活的API，允许用户使用几行PyTorch代码实现多个注意力变体。通过torch.compile将其降低到一个融合的FlashAttention内核中，生成了一个不会占用额外内存且性能可与手写内核相媲美的FlashAttention内核。FlexAttention具有令人惊讶的表达能力，可以满足大多数用户对注意力变体的需求。

🎯

关键要点

FlexAttention 是一个灵活的 API，允许用户用几行 PyTorch 代码实现多个注意力变体。
通过 torch.compile，FlexAttention 被降低到一个融合的 FlashAttention 内核，性能可与手写内核相媲美且不占用额外内存。
现有的注意力机制在性能提升的同时失去了灵活性，导致用户面临运行缓慢和 CUDA 内存不足的问题。
FlexAttention 允许用户定义 score_mod 函数，以满足对注意力变体的需求。
FlexAttention 动态计算偏差值，显著提高内存和性能，支持相对位置编码等变体。
FlexAttention 的性能接近手写的 Triton 内核，前向传播实现了 FlashAttention2 性能的 90%，反向传播实现了 85%。
研究者计划改进 FlexAttention 的反向算法，以缩小与 FlashAttention2 的性能差距。

🏷️

继续阅读

一分钟读论文：《多智能体工作流中完全循环子任务图的灵活性与成本》
黎巴嫩美国大学研究者发表的论文《Complete Cyclic Subtask Graphs for Tool-Using LLM Agents: Fle...
Claude Code实践：从零开始，一行代码不写生成一个项目
本文介绍了如何使用Claude Code生成基于SpringBoot的项目。用户可以通过与Claude Code互动详细描述需求，Claude Code会...
第732期：网页抓取、Altair图表、OpenAI的API及更多（2026年4月28日）
文章比较了browser-use和Playwright在网页抓取中的应用。通过构建Hacker News合成器展示了browser-use的优势，但在复杂...
通过Databricks市场安全发送第一方转换信号至Snapchat转换API
Snapchat的转换API（CAPI）已在Databricks市场上线，允许团队直接从Lakehouse激活第一方数据，简化广告优化流程。用户可以通过预...
人工智能如何改变编写干净代码的经济学
文章探讨了抽象接口在编程中的重要性，尤其是在AI技术普及后。尽管编写代码的成本降低，但理解代码的难度依然存在。抽象接口可以减轻认知负担，帮助开发者更容易理...
我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B
DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B，优化了硬件和软件，提升了推理速度和效率，满足...

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

内容提要

关键要点

标签

继续阅读