ByteByteGo Newsletter ·

Uber如何管理PB级实时数据

💡 原文英文，约3500词，阅读约需13分钟。

📝

内容提要

Uber的实时数据基础设施是其业务核心，每天处理大量数据。系统由消息平台、流处理和OLAP组成，确保数据快速分析。关键要求包括一致性、可用性、数据新鲜度、可扩展性和成本效率。Uber使用定制的开源技术如Kafka、Flink和Pinot，支持动态定价、UberEats管理和实时预测等功能。

🎯

🔎

Uber的实时数据基础设施是其业务的核心，支持动态定价、UberEats管理等关键功能。随着用户和数据量的增加，保持系统的高可用性和低延迟变得尤为重要。用户在使用Uber服务时，几乎看不到延迟，这背后是复杂的技术架构和高效的数据处理策略。

Uber采用了Kafka、Flink和Pinot等开源技术，这为其数据处理提供了灵活性和可扩展性。然而，Uber也面临着将这些技术定制化以满足自身需求的挑战。开源技术的快速迭代和社区支持是其成功的关键，但同时也需要持续的工程投入来确保系统的稳定性和性能。

Uber通过Active-Active和Active-Passive Kafka设置来确保数据的一致性和高可用性。这种架构允许在一个区域出现故障时，系统能够迅速切换到其他区域，确保服务不中断。对于依赖实时数据的功能，如动态定价，这种冗余设计至关重要。

❓

Uber的实时数据基础设施由消息平台、流处理和OLAP组成。

Uber采用Active-Active和Active-Passive Kafka设置，以确保高可用性和数据一致性。

Uber使用Kafka、Flink和Pinot等定制的开源技术来处理实时数据。

Uber通过Kafka和Flink的数据管道实时处理乘车请求和司机可用性，从而实现动态定价。

Uber使用Kappa+架构，允许在实时和历史数据处理之间无缝切换，支持历史数据的再处理。

Uber需要扩展系统以处理更多数据，支持新用例，并确保数据新鲜度和低延迟。

🏷️