ELIS:具有响应长度预测的高效大语言模型迭代调度系统 本研究针对当前大语言模型(LLM)服务系统中存在的“前端阻塞”问题,提出了一种新的调度系统ELIS。通过训练响应长度预测器并采用优化的迭代最短剩余时间优先调度策略,ELIS显著提升了推理任务的效率,实验结果显示平均作业完成时间降低了最大19.6%。 本研究提出了一种新调度系统ELIS,旨在解决大语言模型服务中的前端阻塞问题。通过训练响应长度预测器和优化调度策略,ELIS使推理任务效率提高,平均作业完成时间降低了19.6%。 ELIS 前端阻塞 大语言模型 推理任务 效率 调度系统