赛·斯里兰普尔:使用PeerDB实现Postgres到ClickHouse的实时复制

赛·斯里兰普尔:使用PeerDB实现Postgres到ClickHouse的实时复制

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

PeerDB推出了ClickHouse目标连接器的Beta版,实现了从Postgres到ClickHouse的无缝数据复制,具有低延迟和高吞吐量。这使得在不影响事务性能的情况下对运营数据进行实时分析,并创建了高效的操作数据仓库或HTAP环境。文章提供了使用PeerDB进行从Postgres到ClickHouse的低延迟复制的实际演示,并解释了构建ClickHouse连接器时所做的设计选择。PeerDB旨在将PostgreSQL中的数据类型映射到ClickHouse中的本机对应类型,并将PostgreSQL中的原始CDC更改以Avro文件的形式暂存于S3中。

🎯

关键要点

  • PeerDB推出了ClickHouse目标连接器的Beta版,实现了从Postgres到ClickHouse的无缝数据复制。
  • 该连接器支持低延迟和高吞吐量的数据复制,适用于实时分析运营数据。
  • Postgres到ClickHouse的复制使得在不影响事务性能的情况下进行实时分析,创建高效的操作数据仓库或HTAP环境。
  • ClickHouse被认为是一个成本效益高的数据仓库,适合大数据集的分析。
  • 使用PeerDB进行Postgres到ClickHouse的复制示例,展示了如何设置Postgres、ClickHouse和PeerDB。
  • 可以通过PeerDB的UI创建Postgres和ClickHouse的Peer,以设置数据复制。
  • 设置同步间隔以控制ClickHouse中的数据新鲜度,PeerDB支持10秒的短间隔。
  • 复制过程包括初始加载和变更数据捕获(CDC),通过Postgres的WAL和逻辑解码实现。
  • PeerDB在复制过程中保持约10秒的延迟,吞吐量约为每秒2500行。
  • ClickHouse连接器的设计选择包括使用ReplacingMergeTree引擎和数据类型映射。
  • PeerDB将PostgreSQL的数据类型映射到ClickHouse的本机对应类型,支持JSON等类型的映射。
  • 原始CDC更改以Avro文件的形式暂存于S3中,PeerDB OSS要求用户指定S3阶段。
➡️

继续阅读