爱范儿 ·

一文看懂 DeepSeek 刚刚开源的 FlashMLA，这些细节值得注意

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

DeepSeek 开源的 FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核，支持变长序列处理，提升 LLM 推理效率。它借鉴了 FlashAttention 和 cutlass，采用低秩分解等技术，显著降低内存和计算需求，适合长序列和实时应用。FlashMLA 的开源将惠及更多开发者，推动 AI 创业。

🎯

关键要点

DeepSeek 开源的 FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核。
FlashMLA 支持变长序列处理，提升 LLM 推理效率，特别是在高端 GPU 上表现优异。
FlashMLA 通过优化 MLA 解码和分页 KV 缓存，显著提高计算效率。
FlashMLA 的灵感来源于 FlashAttention 和 cutlass 项目，采用低秩分解等技术降低内存和计算需求。
FlashMLA 适合长序列处理和实时应用，如聊天机器人和虚拟助手。
FlashMLA 的开源将使更多开发者受益，推动 AI 创业。
FlashMLA 在内存和计算限制下的表现超越传统方法，具有线性复杂度设计。
FlashMLA 提供更高的计算效率和内存带宽优化，降低单位推理成本。
研究人员和开发者可以基于 FlashMLA 进行进一步优化，促进 AI 领域的创新。
FlashMLA 支持 BF16 和分页 KV 缓存，适用于 H800 SXM5 上运行，达到 3000 GB/s 和 580 TFLOPS 的性能。

❓

延伸问答

FlashMLA 是什么？

FlashMLA 是 DeepSeek 开源的高效 MLA 解码内核，专为 Hopper GPU 优化，支持变长序列处理。

FlashMLA 如何提高 LLM 的推理效率？

FlashMLA 通过优化 MLA 解码和分页 KV 缓存，显著提高 LLM 推理效率，特别是在高端 GPU 上。

FlashMLA 的灵感来源于哪些技术？

FlashMLA 的灵感来源于 FlashAttention 和 cutlass 项目，采用低秩分解等技术。

FlashMLA 适合哪些应用场景？

FlashMLA 适合长序列处理和实时应用，如聊天机器人、虚拟助手和实时翻译系统。

FlashMLA 的开源对开发者有什么影响？

FlashMLA 的开源将使更多开发者受益，推动 AI 创业，促进创新。

FlashMLA 在性能上与传统方法相比有什么优势？

FlashMLA 在内存和计算限制下的表现超越传统方法，具有线性复杂度设计，提供更高的计算效率。

🏷️

继续阅读

早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...
刚刚，Windows「梦中神机」来了，把你的 PC 变成 Agent 工位
微软与OpenAI的合作关系逐渐疏远。在Build 2026发布会上，微软展示了自研的MAI模型系列，涵盖推理、代码、图像和语音等领域，强调多模型选择的重...
一夜之间，ChatGPT 变成了第二个 Claude
OpenAI计划将Codex整合进ChatGPT，以提升其在企业工作中的应用。Codex将支持数据分析、市场营销等多种任务，用户可通过统一界面操作。目前C...
让 Amazon Quick 操作飞书：构建远程 MCP 服务的设计实践
本文探讨了如何利用AWS Bedrock AgentCore构建Amazon Quick与飞书的远程MCP服务，提出了按需编排、分层注册和Token安全的...
网站所有者的新机遇、控制权和洞察
人们越来越依赖生成性人工智能工具来查找和理解信息。新的搜索功能如AI概述和AI模式提升了用户满意度，吸引了更多访问。网站所有者可以通过新控制管理其内容在生...