小红花·文摘

本研究探讨了大语言模型推理服务中的高延迟和低吞吐量问题，提出了实例级和集群级的创新方法，并分析了模型部署、请求调度和负载均衡等关键环节，优化后显著提升了推理服务性能。