ALTO是一种网络编排器,用于高效地服务复合AI系统。它通过利用生成性语言模型的优化机会,实现高吞吐量和低延迟。ALTO展示了对聊天机器人验证流水线的影响,增加吞吐量最多可达到3倍,同时减少了尾延迟1.8倍。
完成下面两步后,将自动完成登录并继续当前操作。