小红花·文摘

本研究提出LayerKV方法，通过分层键值缓存管理和SLO感知调度器，优化大型语言模型的服务，显著降低首次令牌时间（TTFT）延迟，提升用户体验，无需额外硬件投资。