基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案 本文基于 Amazon SageMaker 的 Stateful Session(有状态会话路由)机制,通过唯一会话 ID 确保同一会话的所有请求路由到同一实例,从而在分布式环境下实现有效的 KV 缓存复用。 随着大语言模型(LLMs)的普及,高效部署成为一大挑战。KV Cache通过重用计算结果提升推理效率,但在大规模集群中,随机负载均衡影响缓存复用。Amazon SageMaker的有状态会话路由机制解决了这一问题,确保相似请求路由到同一节点,从而降低延迟,提高系统性能。 Amazon SageMaker KV Cache sagemaker 大语言模型 性能提升 负载均衡 集群