量子位 ·

DeepSeek突破H800性能上限，FlashMLA重磅开源，算力成本还能降

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

DeepSeek推出FlashMLA，突破H800性能限制，显著降低计算成本。该解码内核专为Hopper GPU优化，支持BF16，提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求，推理成本大幅降低，受到全球关注。

🎯

🔎

FlashMLA专为Hopper GPU设计，优化了可变长度序列的处理能力。其支持的BF16格式和分页KV缓存技术，使得内存使用效率大幅提升，推理速度显著加快。这些技术的结合使得DeepSeek在大模型领域具备了更强的竞争力。

MLA架构通过低秩压缩技术显著降低了存储需求，尤其在处理长序列时表现突出。与传统的多头注意力机制相比，MLA能够将显存占用降至5%-13%，这为大规模模型的应用提供了更为经济的解决方案。

FlashMLA的开源发布在GitHub上迅速获得关注，短时间内便吸引了大量用户点赞。这不仅展示了DeepSeek的技术实力，也可能推动更多开发者参与到大模型的优化与应用中，形成良性循环。

❓

FlashMLA是为Hopper GPU开发的高效MLA解码内核，专门针对可变长度序列进行了优化，显著降低计算成本。

FlashMLA使得H800可以达到3000GB/s内存和580TFLOPS计算性能，突破了其性能限制。

MLA架构通过低秩压缩技术减少存储需求，推理成本大幅降低，显著提高了推理效率与内存使用。

FlashMLA在开源第一天就获得了超过1.2k的Star，显示出广泛的关注和认可。

FlashMLA支持BF16，分页KV缓存，块大小为64，并要求使用Hopper GPU和CUDA 12.3及以上版本。

DeepSeek-R1在HuggingFace上获得超过10000个赞，成为该平台最受欢迎的大模型。

🏷️