DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

机器之心 ·

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

DeepSeek推出FlashMLA开源项目，结合MLA算法与GPU优化，专为Hopper GPU设计，显著降低延迟并提升推理效率。评测显示，H800 GPU可达3000 GB/s内存速度和580 TFLOPS计算性能，受到vLLM和SGLang框架的关注。

🎯

关键要点

DeepSeek推出FlashMLA开源项目，结合MLA算法与GPU优化，专为Hopper GPU设计。
FlashMLA提供高性能、低延迟的解码方案，旨在加速大模型的计算任务。
FlashMLA在处理大规模语言模型时显著提高效率，降低延迟。
Hopper GPU是NVIDIA推出的新一代高性能GPU架构，专为AI和高性能计算设计。
解码内核用于加速解码任务，显著提升模型推理速度和效率。
MLA是多头潜在注意力的简称，性能优于传统的多头注意力机制。
FlashMLA在H800 GPU上可达到3000 GB/s内存速度和580 TFLOPS计算性能。
PPIO对FlashMLA在不同Hopper GPU上的性能进行了评测，结果显示各GPU的性能上限。
FlashMLA的发布引起了vLLM和SGLang等主流推理框架的关注，预计将实现集成。

❓

延伸问答

FlashMLA是什么？

FlashMLA是DeepSeek推出的开源项目，结合MLA算法与GPU优化，专为Hopper GPU设计，提供高性能、低延迟的解码方案。

Hopper GPU的特点是什么？

Hopper GPU是NVIDIA推出的新一代高性能GPU架构，专为AI和高性能计算设计，具有卓越的性能和能效。

FlashMLA在H800 GPU上的性能表现如何？

FlashMLA在H800 GPU上可达到3000 GB/s的内存速度和580 TFLOPS的计算性能。

MLA算法与传统多头注意力机制有什么区别？

MLA算法对KV缓存的需求更轻量化，处理长序列时更容易扩展，性能优于传统的多头注意力机制。

FlashMLA对推理框架有什么影响？

FlashMLA的发布引起了vLLM和SGLang等主流推理框架的关注，预计将实现集成以提升推理性能。

PPIO对FlashMLA的评测结果如何？

PPIO对FlashMLA在不同Hopper GPU上的性能进行了评测，结果显示各GPU的性能上限，包括H20、H100、H200和H800的具体数据。

🏷️

继续阅读

早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
Elly推出AI招聘助手，将对话式招聘和外联整合到一个招聘系统中
AI原生招聘平台Elly推出了AI Sourcer，旨在通过集成对话式人才搜寻和拓展工作流程，减少招聘过程中的人工工作量。该系统整合了电子邮件和Linke...
刚刚，Windows「梦中神机」来了，把你的 PC 变成 Agent 工位
微软与OpenAI的合作关系逐渐疏远。在Build 2026发布会上，微软展示了自研的MAI模型系列，涵盖推理、代码、图像和语音等领域，强调多模型选择的重...
一夜之间，ChatGPT 变成了第二个 Claude
OpenAI计划将Codex整合进ChatGPT，以提升其在企业工作中的应用。Codex将支持数据分析、市场营销等多种任务，用户可通过统一界面操作。目前C...