降低大模型推理87%时延!华为云论文入选顶会USENIX ATC‘24
内容提要
华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统,通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务,实现了“显存扩展”、“算力卸载”、“以存代算”等功能,构建AI Native的基础设施。
关键要点
-
华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。
-
论文提出全球首个面向大模型推理的多级KV Cache缓存系统,称作AttentionStore,降低了87%的首Token时延。
-
USENIX ATC会议是计算机系统领域的顶级国际会议,2024年录用率为15.8%。
-
CachedAttention通过重用KV Cache来提升多轮对话的推理性能,减少重复计算开销。
-
CachedAttention采用分层KV Cache存储系统,利用DRAM和SSD介质,提升KV Cache访问效率。
-
实验结果表明,CachedAttention提升了7.8倍的吞吐量,降低了端到端推理成本。
-
华为云EMS弹性内存存储服务是业界首个实际应用的内存存储服务,具备显存扩展、算力卸载、以存代算功能。
-
华为云形成了AI-Native智算存储解决方案,支持万亿模型存储和快速训练任务恢复。
延伸问答
华为云的论文在USENIX ATC 2024上有什么重要贡献?
华为云的论文提出了全球首个面向大模型推理的多级KV Cache缓存系统,称作AttentionStore,降低了87%的首Token时延。
CachedAttention是如何提高多轮对话的推理性能的?
CachedAttention通过重用KV Cache来减少重复计算开销,从而显著提升推理性能。
USENIX ATC会议的录用率是多少?
2024年USENIX ATC会议的录用率为15.8%。
华为云的EMS弹性内存存储服务有哪些功能?
EMS弹性内存存储服务具备显存扩展、算力卸载和以存代算等功能。
CachedAttention的实验结果如何?
实验结果表明,CachedAttention降低了87%的首Token时延,提升了7.8倍的吞吐量。
华为云的AI-Native智算存储解决方案包含哪些组件?
该解决方案包含EMS弹性内存存储、SFS Turbo弹性文件存储和OBS对象存储。