本文探讨了GPU数据中心的在线调度问题,提出了一种新策略PWR,旨在减少GPU碎片化和功耗,平衡资源利用与能源效率,以应对未来任务到达时间的不确定性。
本文介绍了多个基于机器学习的系统和方法,旨在优化资源调度、提高性能和降低成本。InferLine系统通过自动调整阈值优化ML预测流程,InfAdapter系统通过资源分配满足延迟服务目标。此外,研究提出了新的分布式执行框架和在线调度算法,以提升系统效率和性能。
完成下面两步后,将自动完成登录并继续当前操作。