数仓调优实践丨多次关联发散导致数据爆炸案例分析改写
💡
原文中文,约9700字,阅读约需23分钟。
📝
内容提要
本文介绍了华为云社区的一篇文章,讲述了GaussDB(DWS)性能调优过程中遇到的问题和解决方案。文章描述了多次自关联导致性能瓶颈的问题,给出了原始SQL和改写后的SQL。通过取消发散关联和改写SQL来解决计算倾斜问题,将执行时间从25分钟优化到了800毫秒。
🎯
关键要点
- 本文介绍了华为云社区关于GaussDB(DWS)性能调优的案例。
- 问题描述中提到多次自关联导致性能瓶颈,数据爆炸。
- 原始SQL使用了发散关联,导致执行时间过长。
- 性能分析显示经过两次关联,数据量达到5万亿行。
- 通过取消发散关联和改写SQL,优化了计算倾斜问题。
- 改写后的SQL执行时间从25分钟优化到800毫秒。
- 调优过程中发现复制表导致计算倾斜,采用临时表重分布解决。
- 最终总结了调优过程中的关键步骤和思路。
➡️