数据架构堆栈

数据架构堆栈

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

作者讨论了其数据处理架构,使用GCP的Pub/Sub每5分钟接收数千个事件,并在BigQuery中存储3亿行元数据。由于元数据表过大,Clickhouse的物化视图查询速度慢且成本高,作者寻求更高效的解决方案,考虑将元数据直接推送到Pub/Sub中。

🎯

关键要点

  • 作者使用GCP的Pub/Sub每5分钟接收数千个事件。
  • 在BigQuery中存储了3亿行的元数据表。
  • Pub/Sub事件和BigQuery表共享一个共同的连接键。
  • 作者的应用程序需要实时查询基于连接数据的指标。
  • 由于元数据表过大,Clickhouse的物化视图查询速度慢且成本高。
  • 作者寻求更高效的解决方案,考虑将元数据直接推送到Pub/Sub中。
  • 作者询问是否有其他工具或解决方案可以改善性能。
  • 作者提到Clickhouse连接性能不佳,尝试使用字典但效果不理想。
  • 考虑使用另一种数据模型来处理Pub/Sub事件,但担心频繁添加新元数据列时的回填问题。

延伸问答

作者使用了什么工具来处理数据事件?

作者使用GCP的Pub/Sub来处理数据事件。

作者在BigQuery中存储了多少行元数据?

作者在BigQuery中存储了3亿行的元数据。

Clickhouse在作者的数据架构中遇到了什么问题?

Clickhouse的物化视图查询速度慢且成本高。

作者考虑了哪些解决方案来改善数据查询性能?

作者考虑将元数据直接推送到Pub/Sub中。

作者在使用Clickhouse时遇到了什么连接性能问题?

作者提到Clickhouse连接性能不佳,尝试使用字典但效果不理想。

作者对数据模型的使用有什么顾虑?

作者担心频繁添加新元数据列时的回填问题。

➡️

继续阅读