💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。公司利用AI模型进行预测和内部工具开发,但数据与计算的分离影响了基础设施。GPU的稀缺性和高成本使灾难恢复和故障转移变得复杂。Uber致力于提高GPU的灵活性,以支持其AI工作负载。

🎯

关键要点

  • Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。
  • Uber利用AI模型进行预测和内部工具开发,涉及到多个用例和云服务提供商。
  • 数据与计算的分离影响了Uber的基础设施,导致构建统一基础设施变得困难。
  • GPU的稀缺性和高成本使得灾难恢复和故障转移变得复杂。
  • Uber正在努力提高GPU的灵活性,以支持其AI工作负载。
  • Agentic工作流是Uber的一个新方向,尽管目前GPU使用仍然较少。
  • Uber使用Ray进行训练,并通过Nvidia Triton和TensorRT优化预测模型。
  • Uber面临的一个未解决问题是如何提高GPU的可替代性。
  • Uber正在适应新的度量标准,以应对技术债务和不同硬件的指标差异。
➡️

继续阅读