DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本还能降
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。该解码内核专为Hopper GPU优化,支持BF16,提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低,受到全球关注。
🎯
关键要点
- DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。
- FlashMLA是为Hopper GPU开发的高效MLA解码内核,专门针对可变长度序列进行了优化。
- FlashMLA使得H800可以达到3000GB/s内存和580TFLOPS计算性能。
- FlashMLA支持BF16,分页KV缓存,块大小为64。
- FlashAttention和英伟达CUTLASS项目对FlashMLA有启发作用。
- MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低。
- V2版本的MLA将显存占用降至过去MHA架构的5%-13%。
- DeepSeek-R1在HuggingFace上获得超过10000个赞,成为最受欢迎的大模型。
➡️