Kubernetes Blog ·

介绍Gateway API推理扩展

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

Gateway API推理扩展旨在解决Kubernetes上生成AI和大型语言模型（LLM）服务的流量路由问题。该扩展在现有Gateway API基础上增加了推理特定的路由能力，支持模型感知路由和请求优先级管理。通过引入InferencePool和InferenceModel，平台管理员和模型拥有者能够更有效地管理资源和服务请求。测试结果显示，该扩展在高负载下显著降低延迟，提高了GPU利用率，优化了AI工作负载的路由效率。

🎯

关键要点

Gateway API推理扩展旨在解决Kubernetes上生成AI和大型语言模型服务的流量路由问题。
该扩展在现有Gateway API基础上增加了推理特定的路由能力，支持模型感知路由和请求优先级管理。
引入InferencePool和InferenceModel，平台管理员和模型拥有者能够更有效地管理资源和服务请求。
推理扩展通过改进和标准化推理工作负载的路由，旨在降低延迟并提高GPU利用率。
设计中引入了两个新的自定义资源：InferencePool和InferenceModel，分别用于管理模型服务器和用户模型端点。
请求流基于Gateway API模型，增加了推理感知的步骤以优化路由。
测试结果显示，推理扩展在高负载下显著降低延迟，提高了GPU利用率。
未来计划包括支持多种模型类型和异构加速器，进一步优化负载均衡和扩展能力。
Gateway API推理扩展旨在简化和标准化AI/ML流量的路由，帮助运维团队高效交付LLM服务。

❓

延伸问答

Gateway API推理扩展的主要目的是什么？

Gateway API推理扩展旨在解决Kubernetes上生成AI和大型语言模型服务的流量路由问题，增加推理特定的路由能力。

推理扩展如何提高GPU的利用率？

推理扩展通过改进和标准化推理工作负载的路由，减少延迟，从而提高GPU的利用率。

InferencePool和InferenceModel的作用是什么？

InferencePool用于管理模型服务器的资源，而InferenceModel则是用户可访问的模型端点，帮助管理模型的服务。

推理扩展在高负载下的测试结果如何？

测试结果显示，推理扩展在高负载下显著降低了延迟，提高了GPU利用率。

未来的计划包括哪些功能？

未来计划包括支持多种模型类型、异构加速器、负载均衡优化等，以进一步提升扩展能力。

Gateway API推理扩展如何优化请求路由？

通过引入推理感知的步骤，Gateway API推理扩展能够根据实时模型指标优化请求路由。

🏷️

继续阅读

在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Floor Drees：如何在Kubernetes集群中测试PostgreSQL 19 Beta
PostgreSQL 19 Beta 1已发布，包含所有即将推出的新功能。CloudNativePG社区提供了该版本的容器镜像，用户可以在Kubernet...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
我们在2026年5月发布的最新AI新闻
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...