InfoQ ·

KubeCon北美2025 - Robert Nishihara谈Kubernetes、Ray、PyTorch和vLLM的开源AI计算

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

Anyscale的Robert Nishihara在KubeCon会议上讨论了Kubernetes、PyTorch、vLLM和Ray如何协同支持复杂的AI工作负载，强调数据处理、模型训练和服务的重要性。Ray作为开源框架，促进了分布式机器学习应用的发展，支持GPU和CPU协同使用，提升性能。他指出，AI平台需具备多云体验、工作负载优先级和可观察性等核心要求。

🎯

关键要点

AI工作负载在计算和数据方面变得越来越复杂，Kubernetes和PyTorch等技术可以帮助构建生产就绪的AI系统。
Ray是一个开源框架，旨在构建和扩展机器学习和Python应用，支持分布式工作负载。
数据处理、模型训练和模型服务是推动AI工作负载演变的三个主要领域。
数据处理需要适应新兴的数据类型，包括多模态数据集，支持推理任务。
模型训练涉及强化学习和后训练任务，Ray的Actor API可用于Trainer和Generator组件。
多个开源强化学习框架在Ray之上开发，包括Cursor的composer、Verl、OpenRLHF等。
Ray的应用架构显示出上层和下层的复杂性，软件栈需要连接应用和硬件。
Kubernetes和Ray相辅相成，提供容器级和进程级的隔离，支持垂直和水平自动扩展。
AI平台的核心要求包括支持多云体验、工作负载优先级、可观察性和整体治理。

🔎

延伸解读

AI工作负载的复杂性

随着AI工作负载的复杂性增加，数据处理、模型训练和模型服务成为关键领域。特别是数据处理需要适应多模态数据集，这对推理任务至关重要。理解这些变化有助于开发更高效的AI系统。

Ray与Kubernetes的协同作用

Ray和Kubernetes的结合为AI应用提供了强大的支持。Kubernetes提供容器级隔离，而Ray则增强了进程级隔离和自动扩展能力。这种协同作用使得在不同工作负载之间灵活调配资源成为可能，提升了整体性能。

多云体验的重要性

Nishihara强调AI平台必须支持多云体验和工作负载优先级。这意味着企业在选择技术栈时，需要考虑如何在不同云环境中有效管理资源，以确保AI应用的可扩展性和灵活性。

❓

延伸问答

Kubernetes和Ray如何支持AI工作负载的复杂性？

Kubernetes和Ray通过提供容器级和进程级的隔离，支持垂直和水平自动扩展，从而有效支持AI工作负载的复杂性。

Ray的Actor API有什么作用？

Ray的Actor API用于创建和管理状态工作者，支持模型训练和生成新数据的任务。

AI平台的核心要求是什么？

AI平台需支持多云体验、工作负载优先级、可观察性和整体治理等核心要求。

数据处理在AI工作负载中有哪些新要求？

数据处理需要适应多模态数据集，支持推理任务，超越传统的表格数据处理。

模型训练涉及哪些关键任务？

模型训练包括强化学习和后训练任务，如通过模型推理生成新数据。

Ray与PyTorch的关系是什么？

Ray是PyTorch基金会的一部分，旨在为开源AI生态系统贡献，支持机器学习和Python应用的构建与扩展。

🏷️