小红花·文摘

Shadow Walker 松烟阁 ·

DeepSeek推出FlashMLA，突破H800性能限制，显著降低计算成本。该解码内核专为Hopper GPU优化，支持BF16，提升内存和推理效率。MLA架构通过低秩压缩技术减少存储需求，推理成本大幅降低，受到全球关注。

量子位 ·