💡
原文英文,约1500词,阅读约需6分钟。
📝
内容提要
Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。公司利用AI模型进行预测和内部工具开发,但数据与计算的分离影响了基础设施。GPU的稀缺性和高成本使灾难恢复和故障转移变得复杂。Uber致力于提高GPU的灵活性,以支持其AI工作负载。
🎯
关键要点
- Uber正在从本地基础设施转向多云环境,面临GPU使用优化和工作负载管理的挑战。
- Uber利用AI模型进行预测和内部工具开发,涉及到多个用例和云服务提供商。
- 数据与计算的分离影响了Uber的基础设施,导致构建统一基础设施变得困难。
- GPU的稀缺性和高成本使得灾难恢复和故障转移变得复杂。
- Uber正在努力提高GPU的灵活性,以支持其AI工作负载。
- Agentic工作流是Uber的一个新方向,尽管目前GPU使用仍然较少。
- Uber使用Ray进行训练,并通过Nvidia Triton和TensorRT优化预测模型。
- Uber面临的一个未解决问题是如何提高GPU的可替代性。
- Uber正在适应新的度量标准,以应对技术债务和不同硬件的指标差异。
➡️