Adaptive Scheduling for Large-Scale Inference on Heterogeneous Accelerator Systems: Balancing Cost, Performance, and Resilience

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种硬件无关的控制循环,旨在满足生成性AI工作负载的可扩展推断需求。该系统能够根据实时成本和容量信号,在异构加速器之间自适应分配请求,动态切换优化模式,以有效利用计算资源,确保低延迟和高吞吐量。

🎯

关键要点

  • 本研究提出了一种硬件无关的控制循环,旨在满足生成性AI工作负载的可扩展推断需求。
  • 该系统能够根据实时成本和容量信号,在异构加速器之间自适应分配请求。
  • 通过动态切换成本优化和容量优化模式,该框架能够有效利用计算资源。
  • 研究表明,该系统确保低延迟和高吞吐量,帮助组织在加速器容量有限的情况下高效扩展生成性AI工作负载。
➡️

继续阅读