The New Stack ·

从单体到全球网格：Uber如何在大规模下标准化机器学习

💡 原文英文，约600词，阅读约需3分钟。

📝

内容提要

Uber在2015年面临数据科学家管理服务器和数据管道的问题，导致模型开发缓慢。为了解决这一问题，Uber开发了Michelangelo集中式机器学习平台，并转向云原生Kubernetes架构以应对扩展瓶颈。通过实施统一的批处理联邦层和Uniflow工作流服务，Uber优化了模型开发流程。到2026年，Michelangelo将实现自我修复的生态系统，以应对单一云依赖的风险。

🎯

关键要点

2015年，Uber面临数据科学家管理服务器和数据管道的问题，导致模型开发缓慢。
Uber开发了Michelangelo集中式机器学习平台，以解决数据科学家在模型开发中花费大量时间在手动管理上的问题。
随着预测量超过每秒3000万次，Uber需要从单体遗留架构转向云原生Kubernetes架构以应对扩展瓶颈。
Uber采用了自定义资源的架构抽象，以解决Kubernetes在处理复杂关系链接时的压力。
实施统一的批处理联邦层以解决计算资源的分配问题，避免了“孤立计算”的情况。
Uniflow工作流服务被引入，以简化复杂任务的链式处理，专注于模型开发的独特需求。
到2026年，Michelangelo将实现自我修复的生态系统，以应对单一云依赖的风险，并管理前所未有的关键工作负载。

🔎

延伸解读

Uber的机器学习挑战

Uber在2015年面临着数据科学家在模型开发中花费大量时间在手动管理服务器和数据管道的问题。这种情况导致了模型开发的效率低下，反映出快速发展的企业在技术基础设施上的滞后。

Kubernetes架构的转变

随着Uber的预测量激增，传统的单体架构无法满足需求，转向云原生Kubernetes架构成为必然选择。这一转变不仅解决了扩展瓶颈，还为复杂的模型管理提供了更灵活的解决方案。

自我修复生态系统的前景

到2026年，Uber计划将Michelangelo平台转变为自我修复的生态系统，以应对单一云依赖的风险。这一战略将有助于提高系统的可靠性和灵活性，确保在面对不断变化的技术环境时能够持续运作。

❓

延伸问答

Uber是如何解决数据科学家管理服务器和数据管道的问题的？

Uber开发了Michelangelo集中式机器学习平台，以减少数据科学家在手动管理上的时间，专注于模型开发。

Michelangelo平台的主要功能是什么？

Michelangelo旨在创建一个标准化的端到端机器学习流程，民主化人工智能。

Uber为什么需要转向云原生Kubernetes架构？

随着预测量超过每秒3000万次，Uber面临扩展瓶颈，必须进行架构转型以支持更高的计算需求。

Uniflow工作流服务的作用是什么？

Uniflow是一个专为机器学习生命周期设计的工作流服务，简化了复杂任务的链式处理。

Uber如何解决Kubernetes在处理复杂关系链接时的压力？

Uber采用了自定义资源的架构抽象，以应对Kubernetes的压力，优化资源管理。

到2026年，Michelangelo平台的目标是什么？

到2026年，Michelangelo将实现自我修复的生态系统，以应对单一云依赖的风险。

🏷️