本研究提出Chiron自适应扩展器,优化云服务中大型语言模型的服务水平目标(SLO),通过排队大小、利用率和SLO的层次反压估计,使SLO达成率提高90%,GPU效率提升70%。
完成下面两步后,将自动完成登录并继续当前操作。