降低大模型推理87%时延!华为云论文入选顶会USENIX ATC‘24

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统,通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务,实现了“显存扩展”、“算力卸载”、“以存代算”等功能,构建AI Native的基础设施。

🎯

关键要点

  • 华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。
  • 论文提出全球首个面向大模型推理的多级KV Cache缓存系统,称作AttentionStore,降低了87%的首Token时延。
  • USENIX ATC会议是计算机系统领域的顶级国际会议,2024年录用率为15.8%。
  • CachedAttention通过重用KV Cache来提升多轮对话的推理性能,减少重复计算开销。
  • CachedAttention采用分层KV Cache存储系统,利用DRAM和SSD介质,提升KV Cache访问效率。
  • 实验结果表明,CachedAttention提升了7.8倍的吞吐量,降低了端到端推理成本。
  • 华为云EMS弹性内存存储服务是业界首个实际应用的内存存储服务,具备显存扩展、算力卸载、以存代算功能。
  • 华为云形成了AI-Native智算存储解决方案,支持万亿模型存储和快速训练任务恢复。
➡️

继续阅读