Apple Machine Learning Research ·

异步验证的语义缓存用于分层大型语言模型架构

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

大型语言模型在搜索和助手工作流中至关重要，语义缓存能够降低推理成本和延迟。Krites是一种异步缓存策略，通过引入LLM判断，提升静态缓存的覆盖率和请求的命中率。

🎯

关键要点

大型语言模型在搜索、助手和代理工作流中至关重要。
语义缓存能够降低推理成本和延迟。
生产部署通常采用分层的静态-动态设计。
静态缓存由离线审核的响应组成，动态缓存在线填充。
单一的嵌入相似性阈值导致保守和激进的权衡。
Krites是一种异步的、由LLM判断的缓存策略。
Krites在不改变服务决策的情况下扩展静态覆盖率。
Krites在静态阈值下的邻近响应不足时，异步调用LLM进行验证。
通过验证的匹配被提升到动态缓存中，允许未来的重复和改述重用静态答案。
在对话和搜索工作负载的模拟中，Krites将使用策划静态答案的请求比例提高了最多3.9倍，且关键路径延迟不变。

🏷️

继续阅读

极简主义的胜利：OpenClaw 核心引擎 Pi 的架构哲学与开发实录
本文探讨了AI编程工具的复杂性，提出了极简设计理念的Pi智能体，旨在通过简化功能提升开发者的控制力和效率。作者强调理解模型能力和架构设计的重要性，倡导使用...
Devfs 一个基于RUST的兼容s3的本地开发用对象存储
devfs是一个开源的S3兼容文件服务器，旨在提供低成本的本地开发和测试环境，支持常用S3 API，适合团队和CI使用，具备Docker Compose一...
春晚张杰《驭风歌》背后的马，是Seedance 2.0做的！
春晚中，张杰的《驭风歌》表演背景的水墨画马匹由AI模型Seedance 2.0生成，体现了对国风美学的深刻理解。该模型在多个节目中应用，具备精细控制和高质...
LWiAI播客第234期 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5
本期节目总结了上周的重要AI新闻，包括Anthropic的Opus 4.6、OpenAI的GPT-5.3 Codex、Google的Gemini 3及字节...
非常感谢 AI：Western Digital表示，2026年硬盘已经全年售罄
西部数据2026年硬盘产能已被AI企业预定，CEO Irving Tan表示与前七大客户签订了长期订单，云业务收入占比接近89%。消费市场供应延迟约一年，价格大幅上涨。
由于内存危机，Valve的Steam Deck OLED将会‘间歇性’缺货
Valve更新Steam Deck网站，因内存和存储短缺，部分地区Steam Deck OLED可能间歇性缺货，尤其在美国已缺货数日。同时，Valve推迟...

异步验证的语义缓存用于分层大型语言模型架构

内容提要

关键要点

标签

继续阅读