InfoQ ·

KubeCon北美2025 - Erica Hughberg和Alexa Griffith谈生成式AI时代的工具

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

生成式AI技术需要新的工具来支持新工作负载和基础设施。在KubeCon会议上，专家讨论了构建可扩展GenAI平台的要求，如动态路由、令牌级限流和安全管理。现有工具无法满足这些需求，而Kubernetes和KServe等工具能够支持AI应用监控。

🎯

🔎

生成式AI技术的快速发展对基础设施提出了新的挑战。与传统应用相比，GenAI需要动态路由和令牌级限流等新功能，以确保高效的资源管理和安全性。这意味着企业在选择工具时，必须考虑其是否具备AI原生能力，以满足不断变化的工作负载需求。

KServe作为开源标准，为自托管模型提供了统一的平台，支持多种AI框架的推理。其最近的更新增强了对生成式AI的支持，使得开发者能够更方便地进行模型部署和管理。企业在构建AI应用时，可以利用KServe的特性来提高开发效率和系统稳定性。

在生成式AI应用中，流量管理至关重要。Envoy AI Gateway通过集中管理边缘流量，确保了对AI服务的统一访问。这种两级网关架构不仅提升了安全性，还能实现细粒度的访问控制，帮助企业更好地应对复杂的流量模式。

❓

生成式AI平台需要动态模型路由、令牌级限流、安全的凭证管理等新要求。

Kubernetes和KServe能够实现动态路由和流量管理，支持AI应用的监控和可观察性。

Envoy AI Gateway帮助管理边缘流量，提供统一的访问GenAI服务的方式，并负责认证和顶级路由。

KServe是自托管模型的开源标准，支持多种AI框架的模型推理，提供统一的平台。

Tier One Gateway作为集中入口，负责认证和顶级路由，而Tier Two Gateway管理Kubernetes集群上AI模型的流量，提供细粒度的访问控制。

生成式AI工作负载具有状态性、资源密集型和基于令牌的特点，需要AI原生能力来支持。

🏷️