Topology-Aware Preemptive Scheduling for Co-located Large Language Model Workloads
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种细粒度的拓扑感知抢占调度方法,针对共置环境中的大型语言模型工作负载进行调度,提升了调度性能55%。
🎯
关键要点
-
本文提出了一种细粒度的拓扑感知抢占调度方法。
-
该方法针对共置环境中的大型语言模型工作负载进行调度。
-
传统调度在资源抢占场景下缺乏拓扑意识。
-
研究解决了不同优先级工作负载在资源释放时的对接问题。
-
最终提高了调度性能55%。
➡️