InfoQ ·

优步将内部搜索索引迁移至OpenSearch的基于拉取的摄取框架

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

优步将内部搜索索引系统迁移至OpenSearch，采用基于拉取的摄取框架，以提升实时索引的可靠性和恢复能力，降低维护自家搜索平台的复杂性和成本。新架构通过Kafka或Kinesis缓冲数据，增强吞吐量和稳定性，支持多区域一致性，确保用户获得一致的搜索体验。

🎯

🔎

优步采用拉取式摄取框架，显著提升了实时索引的可靠性和恢复能力。这种方式通过将数据从Kafka或Kinesis缓冲，减少了流量激增时的写入丢失风险，确保了系统在高负载下的稳定性。

优步的新架构支持多区域一致性，确保全球用户在搜索时获得相同的体验。通过将每个区域的OpenSearch集群与全球聚合的Kafka主题连接，优步能够实现冗余和无缝故障转移，增强了系统的可用性。

推送式摄取在小规模时表现良好，但在流量激增时容易导致问题。相比之下，拉取式摄取通过控制数据流入速率和内部压力，提供了更好的处理能力和一致性，适合优步这样的大规模应用场景。

❓

优步迁移到OpenSearch是为了提升实时索引的可靠性、处理能力和恢复能力，同时降低维护自家搜索平台的复杂性和成本。

新架构通过Kafka或Kinesis缓冲数据，增强吞吐量和稳定性，支持多区域一致性，确保用户获得一致的搜索体验。

拉取式摄取将责任转移到OpenSearch集群，使用缓冲区控制数据流，而推送式摄取在流量激增时容易导致写入丢失和复杂的重试。

优步的搜索基础设施支持乘车发现、配送选择和基于位置的查询，处理近实时的事件流。

拉取式摄取提供细粒度的操作控制，确保消息处理的一致性和可靠性，减少索引失败，并简化操作恢复。

优步支持段复制和全活跃模式，前者在计算成本上更低但可见性稍有延迟，后者提供更快的可见性但计算成本更高。

🏷️