如何在 Flink 中处理数据倾斜?
发表于: 。数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住在几个大城市,而其他地方的人口较少)。 这本身并不是一件坏事。大多数数据集都有不可避免的固有偏差(毕竟大多数人确实生活在大城市)。当以并行方式处理这些数据时,问题就来了,无论是在 ETL...
数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住在几个大城市,而其他地方的人口较少)。 这本身并不是一件坏事。大多数数据集都有不可避免的固有偏差(毕竟大多数人确实生活在大城市)。当以并行方式处理这些数据时,问题就来了,无论是在 ETL...