降低大模型推理87%时延!华为云论文入选顶会USENIX ATC‘24
💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统,通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务,实现了“显存扩展”、“算力卸载”、“以存代算”等功能,构建AI Native的基础设施。
🎯
关键要点
- 华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。
- 论文提出全球首个面向大模型推理的多级KV Cache缓存系统,称作AttentionStore,降低了87%的首Token时延。
- USENIX ATC会议是计算机系统领域的顶级国际会议,2024年录用率为15.8%。
- CachedAttention通过重用KV Cache来提升多轮对话的推理性能,减少重复计算开销。
- CachedAttention采用分层KV Cache存储系统,利用DRAM和SSD介质,提升KV Cache访问效率。
- 实验结果表明,CachedAttention提升了7.8倍的吞吐量,降低了端到端推理成本。
- 华为云EMS弹性内存存储服务是业界首个实际应用的内存存储服务,具备显存扩展、算力卸载、以存代算功能。
- 华为云形成了AI-Native智算存储解决方案,支持万亿模型存储和快速训练任务恢复。
➡️