Apple Machine Learning Research ·

EpiCache：用于长对话问答的情节KV缓存管理

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

EpiCache是一种无训练的KV缓存管理框架，通过块预填充和情节KV压缩来控制缓存增长，从而提升多轮对话的准确性，减少延迟和内存使用。

🎯

关键要点

EpiCache是一种无训练的KV缓存管理框架，旨在提升多轮对话的准确性。
KV缓存的内存随着对话长度线性增长，容易在资源有限的情况下造成问题。
现有的KV缓存压缩方法存在两个主要限制：一是完全上下文预填充后驱逐条目导致峰值内存不受限，二是查询依赖的驱逐限制了缓存的使用。
EpiCache通过块预填充控制缓存增长，并通过情节KV压缩保留与主题相关的上下文。
EpiCache将对话历史聚类为一致的情节，并应用情节特定的KV缓存驱逐策略。
设计了一种自适应的层级预算分配策略，根据每层对驱逐的敏感性分配内存预算。
在三个LongConvQA基准测试中，EpiCache的准确性提高了最多40%，在4-6倍压缩下保持接近完整的KV准确性。
EpiCache还将延迟和内存使用分别减少了最多2.4倍和3.5倍，从而在严格的资源限制下实现高效的多轮交互。

🏷️

继续阅读

Gitee 企业版测试管理全面升级：流程更顺畅，交付更可靠
Gitee 企业版优化了测试管理功能，增强了用例管理、测试计划执行和报告生成的规范性与协作效率。新增用例评审、执行记录和缺陷快速创建功能，支持自定义报告和...
Gitee 构件治理实践：CBB 分布式管理助力软件工厂建设
在数字化转型中，企业软件开发面临交付效率和安全合规的挑战。Gitee DevSecOps通过分布式管理CBB组件，提升研发效率，支持原地开发和零迁移，确保...
Gitee 正式发布企业版 MCP Server：让 AI 深度融入企业研发管理
Gitee 发布了企业版 MCP Server，为企业用户提供 AI 协作解决方案。新版本 mcp-gitee-ent 深入对接 Gitee 企业版 AP...
自动化你的安全打地鼠：与Exaforce的问答
Exaforce开发了自动化安全响应和攻击检测软件，旨在帮助组织建立和提升安全运营中心（SOC）。其AI技术提高了检测和响应效率，特别是在应对不断变化的网...
Giving your healthcare info to a chatbot is, unsurprisingly, a terrible idea
Every week, more than 230 million people ask ChatGPT for health and wellness ...
More security tools are slowing down your incident response
时间在组织安全防御中至关重要，包括事件时间戳和响应速度。过多工具和数据会降低效率，延长调查时间。电信行业需快速响应以维护网络可靠性。统一的安全信息和事件管...

EpiCache：用于长对话问答的情节KV缓存管理

内容提要

关键要点

标签

继续阅读