Adaptive Scheduling for Large-Scale Inference on Heterogeneous Accelerator Systems: Balancing Cost, Performance, and Resilience
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种硬件无关的控制循环,旨在满足生成性AI工作负载的可扩展推断需求。该系统能够根据实时成本和容量信号,在异构加速器之间自适应分配请求,动态切换优化模式,以有效利用计算资源,确保低延迟和高吞吐量。
🎯
关键要点
- 本研究提出了一种硬件无关的控制循环,旨在满足生成性AI工作负载的可扩展推断需求。
- 该系统能够根据实时成本和容量信号,在异构加速器之间自适应分配请求。
- 通过动态切换成本优化和容量优化模式,该框架能够有效利用计算资源。
- 研究表明,该系统确保低延迟和高吞吐量,帮助组织在加速器容量有限的情况下高效扩展生成性AI工作负载。
➡️