The New Stack ·

深入了解Uber的多云AI现实：数据与计算之间的鸿沟

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

Uber正在从本地基础设施转向多云环境，面临GPU使用优化和工作负载管理的挑战。公司利用AI模型进行预测和内部工具开发，但数据与计算的分离影响了基础设施。GPU的稀缺性和高成本使灾难恢复和故障转移变得复杂。Uber致力于提高GPU的灵活性，以支持其AI工作负载。

🎯

🔎

Uber在转向多云环境时，面临GPU使用优化和工作负载管理的挑战。数据与计算的分离使得构建统一基础设施变得复杂，企业需谨慎选择云服务提供商，以确保能够高效利用资源。

GPU的稀缺性和高成本使得灾难恢复变得复杂。与CPU相比，GPU工作负载的灵活性较低，企业在进行故障转移时需考虑硬件配置的兼容性，以避免额外的资源浪费。

Uber正在探索Agentic工作流的潜力，尽管目前GPU使用仍然较少。随着对这些系统的投资增加，未来可能会显著提升GPU的需求，企业需提前规划以应对可能的资源压力。

❓

Uber在多云环境中面临GPU使用优化、工作负载管理和构建统一基础设施的挑战。

Uber利用AI模型进行车辆到达时间、定价、欺诈检测和Uber Eats排名等预测。

Uber面临GPU稀缺性和高成本的问题，这使得灾难恢复和故障转移变得复杂。

Agentic工作流是Uber为内部工具开发的系统，尽管目前GPU使用仍然较少，但未来有潜力扩大规模。

Uber正在努力解决GPU集群的设置问题，以提高GPU的可替代性和灵活性。

Uber正在适应新的度量标准，并探索构建自己的API，以解决技术债务和指标差异问题。

🏷️