DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本还能降

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。该解码内核专为Hopper GPU优化,支持BF16,提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低,受到全球关注。

🎯

关键要点

  • DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。
  • FlashMLA是为Hopper GPU开发的高效MLA解码内核,专门针对可变长度序列进行了优化。
  • FlashMLA使得H800可以达到3000GB/s内存和580TFLOPS计算性能。
  • FlashMLA支持BF16,分页KV缓存,块大小为64。
  • FlashAttention和英伟达CUTLASS项目对FlashMLA有启发作用。
  • MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低。
  • V2版本的MLA将显存占用降至过去MHA架构的5%-13%。
  • DeepSeek-R1在HuggingFace上获得超过10000个赞,成为最受欢迎的大模型。
➡️

继续阅读