Apple Machine Learning Research ·

分层大语言模型架构的异步验证语义缓存

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了一种名为Krites的异步语义缓存策略，旨在提高大语言模型（LLM）的推理效率。Krites通过验证静态缓存的响应，扩大了静态覆盖范围，允许未来的请求重用经过验证的答案。实验表明，Krites在对话和搜索任务中，使用经过验证的静态答案的请求比例提高了最多3.9倍，同时保持了延迟不变。

🎯

🔎

Krites通过异步验证静态缓存的响应，提升了大语言模型的推理效率。它在保持延迟不变的情况下，允许未来的请求重用经过验证的答案，从而扩大了静态缓存的覆盖范围。这种方法在对话和搜索任务中表现尤为突出，能够显著提高使用静态答案的请求比例。

传统的静态动态缓存策略通常依赖于单一的相似度阈值，这可能导致安全重用机会的丧失或语义错误的响应。Krites的引入打破了这一限制，通过引入异步验证机制，既能保证响应的准确性，又能提高缓存的利用率，展现出更高的灵活性和效率。

Krites在对话和搜索任务中的应用，表明其在实际生产环境中的潜力。随着大语言模型在各类应用中的普及，Krites的有效性可能会影响到用户体验和系统性能，尤其是在需要快速响应的场景中。

❓

Krites是一种异步的语义缓存策略，旨在提高大语言模型（LLM）的推理效率。

Krites通过验证静态缓存的响应，扩大了静态覆盖范围，允许未来的请求重用经过验证的答案。

在对话和搜索任务中，Krites使用经过验证的静态答案的请求比例提高了最多3.9倍。

Krites在保持延迟不变的情况下，增加了使用经过验证的静态答案的请求比例。

Krites的主要优势在于它能够在不改变服务决策的情况下，扩大静态缓存的覆盖范围。

Krites在静态邻居响应低于阈值时，会异步调用LLM进行验证，以决定该响应是否可接受。

🏷️