异步验证的语义缓存用于分层大型语言模型架构

异步验证的语义缓存用于分层大型语言模型架构

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

大型语言模型在搜索和助手工作流中至关重要,语义缓存能够降低推理成本和延迟。Krites是一种异步缓存策略,通过引入LLM判断,提升静态缓存的覆盖率和请求的命中率。

🎯

关键要点

  • 大型语言模型在搜索、助手和代理工作流中至关重要。
  • 语义缓存能够降低推理成本和延迟。
  • 生产部署通常采用分层的静态-动态设计。
  • 静态缓存由离线审核的响应组成,动态缓存在线填充。
  • 单一的嵌入相似性阈值导致保守和激进的权衡。
  • Krites是一种异步的、由LLM判断的缓存策略。
  • Krites在不改变服务决策的情况下扩展静态覆盖率。
  • Krites在静态阈值下的邻近响应不足时,异步调用LLM进行验证。
  • 通过验证的匹配被提升到动态缓存中,允许未来的重复和改述重用静态答案。
  • 在对话和搜索工作负载的模拟中,Krites将使用策划静态答案的请求比例提高了最多3.9倍,且关键路径延迟不变。
➡️

继续阅读