华为云官方博客 ·

降低大模型推理87%时延！华为云论文入选顶会USENIX ATC‘24

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。该论文提出了全球首个面向大模型推理的多级KV Cache缓存系统，通过CachedAttention降低了大模型推理的87%时延。华为云发布了EMS弹性内存存储服务，实现了“显存扩展”、“算力卸载”、“以存代算”等功能，构建AI Native的基础设施。

🎯

关键要点

华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被USENIX ATC 2024收录。
论文提出全球首个面向大模型推理的多级KV Cache缓存系统，称作AttentionStore，降低了87%的首Token时延。
USENIX ATC会议是计算机系统领域的顶级国际会议，2024年录用率为15.8%。
CachedAttention通过重用KV Cache来提升多轮对话的推理性能，减少重复计算开销。
CachedAttention采用分层KV Cache存储系统，利用DRAM和SSD介质，提升KV Cache访问效率。
实验结果表明，CachedAttention提升了7.8倍的吞吐量，降低了端到端推理成本。
华为云EMS弹性内存存储服务是业界首个实际应用的内存存储服务，具备显存扩展、算力卸载、以存代算功能。
华为云形成了AI-Native智算存储解决方案，支持万亿模型存储和快速训练任务恢复。

❓

延伸问答

华为云的论文在USENIX ATC 2024上有什么重要贡献？

华为云的论文提出了全球首个面向大模型推理的多级KV Cache缓存系统，称作AttentionStore，降低了87%的首Token时延。

CachedAttention是如何提高多轮对话的推理性能的？

CachedAttention通过重用KV Cache来减少重复计算开销，从而显著提升推理性能。

USENIX ATC会议的录用率是多少？

2024年USENIX ATC会议的录用率为15.8%。

华为云的EMS弹性内存存储服务有哪些功能？

EMS弹性内存存储服务具备显存扩展、算力卸载和以存代算等功能。

CachedAttention的实验结果如何？

实验结果表明，CachedAttention降低了87%的首Token时延，提升了7.8倍的吞吐量。

华为云的AI-Native智算存储解决方案包含哪些组件？

该解决方案包含EMS弹性内存存储、SFS Turbo弹性文件存储和OBS对象存储。

🏷️

继续阅读

华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
一分钟读论文：《思想的经济：Agent经济交互中的多智能体智能涌现》
多位来自MIT、斯坦福大学、康奈尔大学等机构的学者合作发表的论文《Economy of Minds: Emerging Multi-Agent Intel...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
当你的手机在机场被扣押时会发生什么
明尼苏达州的劳动组织者Janette Zahia Corcelius在返回美国时，她的手机被海关扣押并未归还。她提起诉讼，认为海关的行为违反了宪法第四修正...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
纽约州立法者通过了一项为期一年的新数据中心禁令
纽约州立法机构通过了一项为期一年的数据中心禁令，以评估其对环境和能源价格的影响。法案要求公司在获得项目批准前，至少提前三个月举行公众听证会。尽管大多数民众...