CascadeServe: 解锁模型级联进行推理服务

CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化，在不同工作负载上与现有技术进行比较时，在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。

本文介绍了一种近似算法，使用预训练模型生成具有类似准确度但成本更低的级联模型。该算法应用于最先进的ImageNet分类模型，可降低浮点乘法和内存I/O的成本。自动生成的级联模型具有直观的特性，如对易于处理的图像使用较低分辨率输入，并在使用成本较低的模型时需要更高的预测置信度。

ImageNet分类模型成本降低级联模型近似算法预训练模型