Koordinator 异构资源/任务调度实践

💡 原文中文,约7100字,阅读约需17分钟。
📝

内容提要

Koordinator是阿里云开源的调度系统,支持多种工作负载的混部调度,具备弹性Quota调度和精细化资源管理能力。与KubeDL联合使用可解决大模型训练的调度需求。Koordinator还提出了精细化设备管理机制,未来将引入NRI/CDI等机制解决设备管理问题。

🎯

关键要点

  • Koordinator是阿里云开源的调度系统,支持多种工作负载的混部调度。
  • Koordinator旨在提高工作负载的运行时效率和可靠性,支持大数据和AI训练任务调度。
  • AI和大模型训练带来了新的机遇和挑战,云计算和基础设施需要提供更强大的计算和存储资源。
  • 分布式训练需要高性能网络以支持大模型训练的高带宽和低延迟需求。
  • Koordinator与KubeDL联合使用,解决大模型训练的调度需求和异构设备资源管理需求。
  • Koordinator提供弹性Quota调度和精细化资源管理能力,支持GPU和RDMA的联合分配。
  • Job调度是高层次的抽象,Job需要经过调度程序排队以确保资源公平性。
  • 弹性Quota机制保障资源供给的公平性,避免某些任务资源需求过高导致其他任务被饿死。
  • Coscheduling确保一组Pod协调一致的启动运行,避免资源争抢导致的调度失败。
  • Koordinator提出精细化设备管理机制,解决K8s设备管理的局限性。
  • 未来Koordinator将引入NRI/CDI等机制解决设备管理问题,支持GPU和RDMA的联合分配。
➡️

继续阅读