深入了解Uber的多云AI现实:数据与计算之间的鸿沟

深入了解Uber的多云AI现实:数据与计算之间的鸿沟

💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。公司利用AI模型进行预测和内部工具开发,但数据与计算的分离影响了基础设施。GPU的稀缺性和高成本使灾难恢复和故障转移变得复杂。Uber致力于提高GPU的灵活性,以支持其AI工作负载。

🎯

关键要点

  • Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。
  • Uber利用AI模型进行预测和内部工具开发,涉及到多个用例和云服务提供商。
  • 数据与计算的分离影响了Uber的基础设施,导致构建统一基础设施变得困难。
  • GPU的稀缺性和高成本使得灾难恢复和故障转移变得复杂。
  • Uber正在努力提高GPU的灵活性,以支持其AI工作负载。
  • Agentic工作流是Uber的一个新方向,尽管目前GPU使用仍然较少。
  • Uber使用Ray进行训练,并通过Nvidia Triton和TensorRT优化预测模型。
  • Uber面临的一个未解决问题是如何提高GPU的可替代性。
  • Uber正在适应新的度量标准,以应对技术债务和不同硬件的指标差异。

延伸问答

Uber在多云环境中面临哪些挑战?

Uber在多云环境中面临GPU使用优化、工作负载管理和构建统一基础设施的挑战。

Uber如何利用AI模型进行预测?

Uber利用AI模型进行车辆到达时间、定价、欺诈检测和Uber Eats排名等预测。

Uber在GPU使用方面遇到什么问题?

Uber面临GPU稀缺性和高成本的问题,这使得灾难恢复和故障转移变得复杂。

什么是Agentic工作流,Uber如何应用?

Agentic工作流是Uber为内部工具开发的系统,尽管目前GPU使用仍然较少,但未来有潜力扩大规模。

Uber如何提高GPU的灵活性?

Uber正在努力解决GPU集群的设置问题,以提高GPU的可替代性和灵活性。

Uber如何应对技术债务和不同硬件的指标差异?

Uber正在适应新的度量标准,并探索构建自己的API,以解决技术债务和指标差异问题。

➡️

继续阅读