数据倾斜是指数据分布不均,导致算子压力过大,影响包括单点问题、频繁GC、吞吐下降、延迟增大和系统崩溃。解决方法包括调整并发度、添加随机前缀打散key分布、预聚合和两阶段聚合。SQL样例中通过给分组的key添加随机数打散数据,然后求各个分组的pv值并求和。注意随机数的范围不能太大或太小。
完成下面两步后,将自动完成登录并继续当前操作。