降低大模型推理87%时延!华为云论文入选顶会USENIX ATC‘24
原文中文,约2000字,阅读约需5分钟。发表于: 。论文提出了CachedAttention,一种新的注意力机制允许在多轮对话中重用KV Cache,显著减少重复计算开销从而提升推理性能。
华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统,通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务,实现了“显存扩展”、“算力卸载”、“以存代算”等功能,构建AI Native的基础设施。