DeepSeek 开源的 FlashMLA 项目在 NVIDIA Grace Hopper 架构上显著降低了内存和计算开销,提高了响应速度,适合处理变长序列。该项目已在 GitHub 上开源,开发者可快速部署并验证其性能。
DeepSeek推出了FlashMLA,这是一个针对NVIDIA Hopper GPU的AI加速工具,优化了多层注意力解码,提升了推理效率。其特点包括动态资源分配和低秩压缩,降低了成本和内存占用。FlashMLA的开源特性使中小企业和研究人员更易构建AI应用,推动可持续发展。
DeepSeek推出FlashMLA开源项目,结合MLA算法与GPU优化,专为Hopper GPU设计,显著降低延迟并提升推理效率。评测显示,H800 GPU可达3000 GB/s内存速度和580 TFLOPS计算性能,受到vLLM和SGLang框架的关注。
DeepSeek 开源的 FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核,支持变长序列处理,提升 LLM 推理效率。它借鉴了 FlashAttention 和 cutlass,采用低秩分解等技术,显著降低内存和计算需求,适合长序列和实时应用。FlashMLA 的开源将惠及更多开发者,推动 AI 创业。
DeepSeek推出FlashMLA,突破H800性能限制,显著降低计算成本。该解码内核专为Hopper GPU优化,支持BF16,提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求,推理成本大幅降低,受到全球关注。
上周五,DeepSeek 宣布本周为开源周,首个开源项目是针对 Hopper GPU 的 FlashMLA 解码核,旨在提升推理效率。该项目上线45分钟内获得400多个星标,优化了可变长度序列服务,支持高达3000 GB/s 的内存速度和 580 TFLOPS 的计算能力。
完成下面两步后,将自动完成登录并继续当前操作。