小红花·文摘

华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统，通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务，实现了“显存扩展”、“算力卸载”、“以存代算”等功能，构建AI Native的基础设施。