💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
作者讨论了其数据处理架构,使用GCP的Pub/Sub每5分钟接收数千个事件,并在BigQuery中存储3亿行元数据。由于元数据表过大,Clickhouse的物化视图查询速度慢且成本高,作者寻求更高效的解决方案,考虑将元数据直接推送到Pub/Sub中。
🎯
关键要点
- 作者使用GCP的Pub/Sub每5分钟接收数千个事件。
- 在BigQuery中存储了3亿行的元数据表。
- Pub/Sub事件和BigQuery表共享一个共同的连接键。
- 作者的应用程序需要实时查询基于连接数据的指标。
- 由于元数据表过大,Clickhouse的物化视图查询速度慢且成本高。
- 作者寻求更高效的解决方案,考虑将元数据直接推送到Pub/Sub中。
- 作者询问是否有其他工具或解决方案可以改善性能。
- 作者提到Clickhouse连接性能不佳,尝试使用字典但效果不理想。
- 考虑使用另一种数据模型来处理Pub/Sub事件,但担心频繁添加新元数据列时的回填问题。
❓
延伸问答
作者使用了什么工具来处理数据事件?
作者使用GCP的Pub/Sub来处理数据事件。
作者在BigQuery中存储了多少行元数据?
作者在BigQuery中存储了3亿行的元数据。
Clickhouse在作者的数据架构中遇到了什么问题?
Clickhouse的物化视图查询速度慢且成本高。
作者考虑了哪些解决方案来改善数据查询性能?
作者考虑将元数据直接推送到Pub/Sub中。
作者在使用Clickhouse时遇到了什么连接性能问题?
作者提到Clickhouse连接性能不佳,尝试使用字典但效果不理想。
作者对数据模型的使用有什么顾虑?
作者担心频繁添加新元数据列时的回填问题。
🏷️
标签
➡️