本研究提出了一种硬件无关的控制循环,旨在满足生成性AI工作负载的可扩展推断需求。该系统能够根据实时成本和容量信号,在异构加速器之间自适应分配请求,动态切换优化模式,以有效利用计算资源,确保低延迟和高吞吐量。
完成下面两步后,将自动完成登录并继续当前操作。