💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
大型语言模型在搜索和助手工作流中至关重要,语义缓存能够降低推理成本和延迟。Krites是一种异步缓存策略,通过引入LLM判断,提升静态缓存的覆盖率和请求的命中率。
🎯
关键要点
- 大型语言模型在搜索、助手和代理工作流中至关重要。
- 语义缓存能够降低推理成本和延迟。
- 生产部署通常采用分层的静态-动态设计。
- 静态缓存由离线审核的响应组成,动态缓存在线填充。
- 单一的嵌入相似性阈值导致保守和激进的权衡。
- Krites是一种异步的、由LLM判断的缓存策略。
- Krites在不改变服务决策的情况下扩展静态覆盖率。
- Krites在静态阈值下的邻近响应不足时,异步调用LLM进行验证。
- 通过验证的匹配被提升到动态缓存中,允许未来的重复和改述重用静态答案。
- 在对话和搜索工作负载的模拟中,Krites将使用策划静态答案的请求比例提高了最多3.9倍,且关键路径延迟不变。
➡️