Topology-Aware Preemptive Scheduling for Co-located Large Language Model Workloads

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种细粒度的拓扑感知抢占调度方法,针对共置环境中的大型语言模型工作负载进行调度,提升了调度性能55%。

🎯

关键要点

  • 本文提出了一种细粒度的拓扑感知抢占调度方法。

  • 该方法针对共置环境中的大型语言模型工作负载进行调度。

  • 传统调度在资源抢占场景下缺乏拓扑意识。

  • 研究解决了不同优先级工作负载在资源释放时的对接问题。

  • 最终提高了调度性能55%。

➡️

继续阅读