本研究提出了一种新调度系统ELIS,旨在解决大语言模型服务中的前端阻塞问题。通过训练响应长度预测器和优化调度策略,ELIS使推理任务效率提高,平均作业完成时间降低了19.6%。
完成下面两步后,将自动完成登录并继续当前操作。