Artech ·

[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech

💡 原文中文，约9100字，阅读约需22分钟。

📝

内容提要

CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并存储结果。DistributedCachingChatClient是其具体实现，利用IDistributedCache作为缓存存储，确保相同输入得到相同输出，提高效率。

🎯

关键要点

CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。
它通过检查缓存返回相同输入的响应，若不存在则调用LLM并存储结果。
DistributedCachingChatClient是CachingChatClient的具体实现，利用IDistributedCache作为缓存存储。
CachingChatClient视LLM为纯函数，确保相同输入得到相同输出，从而提高效率。
InMemoryDistributedCache是IDistributedCache接口的实现，使用字典存储缓存数据。
EnableCaching方法决定是否启用缓存，基于ConversationId的存在与否。
流式响应的缓存机制由CoalesceStreamingUpdates属性控制，决定如何合并缓存更新。
DistributedCachingChatClient的缓存键通过GetCacheKey方法生成，结合输入和选项进行哈希计算。

🔎

延伸解读

缓存机制的优势

CachingChatClient通过缓存LLM调用结果，显著减少了重复调用的时间和费用。这种机制特别适合于处理相同输入的场景，能够有效提高系统的响应速度和资源利用率。

流式响应的处理

流式响应的缓存机制由CoalesceStreamingUpdates属性控制，默认合并所有更新为一个整体进行缓存。这种方式在大多数情况下更为合理，因为用户通常更关注最终结果，而非中间过程。

状态管理的重要性

EnableCaching方法的实现依赖于ConversationId的存在与否，表明在有状态会话中使用缓存可能导致错误结果。因此，在设计系统时需谨慎考虑缓存策略，以避免潜在的逻辑错误。

❓

延伸问答

CachingChatClient的主要功能是什么？

CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。

如何判断CachingChatClient是否会返回缓存的响应？

当调用GetResponseAsync方法时，CachingChatClient会先检查缓存中是否存在相同输入的响应，如果存在则返回缓存中的响应。

DistributedCachingChatClient与CachingChatClient有什么区别？

DistributedCachingChatClient是CachingChatClient的具体实现，利用IDistributedCache作为缓存存储。

什么情况下CachingChatClient会启用缓存？

EnableCaching方法决定是否启用缓存，通常在ConversationId为null时启用缓存。

流式响应的缓存机制是如何控制的？

流式响应的缓存机制由CoalesceStreamingUpdates属性控制，决定如何合并缓存更新。

如何创建InMemoryDistributedCache类型的缓存？

通过实现IDistributedCache接口，可以创建InMemoryDistributedCache类型，利用字典存储缓存数据。

🏷️