探索云原生 ·

AI 时代，你的 HPA 可能已经失灵了

💡 原文中文，约7200字，阅读约需18分钟。

📝

内容提要

在AI时代，传统的水平自动扩缩容（HPA）在处理AI推理服务时失效，因为HPA假设资源使用率与负载成正比，而GPU显存常驻，计算使用率与请求量不成正比。KEDA通过监控消息队列的积压情况来决定扩缩容，克服了HPA的局限性，适用于异步处理场景。

🎯

🔎

在AI推理服务中，HPA的设计假设失效，主要是因为GPU显存常驻和计算使用率与请求量不成正比。这意味着即使系统资源看似充足，实际可能存在请求积压，导致服务延迟。因此，依赖HPA进行扩缩容可能会导致资源浪费或响应不及时。

KEDA通过监控消息队列的积压情况来决定扩缩容，克服了HPA的局限性。它能够根据实际的请求量动态调整Pod数量，甚至在没有请求时将Pod数量缩减至零，从而有效节省资源。这种基于需求侧的扩容策略更适合异步处理场景，尤其是AI推理服务。

在使用KEDA时，需要关注冷启动时间、冷却期和轮询间隔等关键参数。冷启动可能导致请求排队，冷却期设置过短会导致频繁扩缩容，浪费资源。因此，合理配置这些参数对于确保服务的稳定性和响应速度至关重要。

❓

传统的HPA假设资源使用率与负载成正比，但在AI推理服务中，GPU显存常驻且计算使用率与请求量不成正比，导致HPA的扩容逻辑失效。

KEDA通过监控消息队列的积压情况来决定扩缩容，直接根据外部事件源的状态，而不是Pod的资源使用率，从而克服了HPA的局限性。

KEDA适用于所有异步处理场景，尤其是AI推理服务，能够提高扩容信号的准确性。

KEDA支持scale to zero功能，可以在没有请求时将Pod数量缩到0，从而节省资源。

在使用KEDA时，需要注意冷启动、cooldownPeriod和轮询间隔等关键参数，以确保扩缩容的有效性。

HPA基于Pod资源使用率进行扩容，而KEDA则基于外部事件源的状态，如消息队列的积压情况，直接反映需求侧的压力。

🏷️