京东科技开发者 ·

浅谈离线数据倾斜

💡 原文中文，约8100字，阅读约需20分钟。

📝

内容提要

本文介绍了优化大数据平台中的数据倾斜问题，包括增加内存、增加reduce个数、自定义分区、重新设计key和使用combinner合并等方法。同时，通过观察Spark UI定位问题，并通过参数调节和SQL语句调节来解决Hive数据倾斜问题。对于Shuffle时数据不均匀导致的数据倾斜，可以采用打散key进行二次聚合、改变join方式、开启spark自适应框架、优化SQL等方法来解决。Spark 3.0中提供了通用倾斜算法来处理更多场景的数据倾斜问题。

🎯

关键要点

数据倾斜是指大量相同key被分配到一个分区，导致计算效率低下。
数据倾斜的现象包括大多数task执行快，但个别task执行极慢，以及OOM异常。
常规解决方案包括增加JVM内存、增加reduce个数、自定义分区、重新设计key和使用combiner合并。
数据倾斜通常发生在shuffle操作中，常用算子包括distinct、groupByKey、reduceByKey等。
Hive数据倾斜的原因包括key分布不均、业务数据特性、建表考虑不周和SQL语句问题。
Hive数据倾斜的表现为某些TASK执行极慢，且任务进度长时间维持在99%。
解决Hive数据倾斜的方法包括参数调节和SQL语句调节，如开启mapjoin和使用合适的join方式。
在join操作中，选择key分布均匀的表作为驱动表，避免笛卡尔积。
对于count distinct操作，使用sum和group by代替count(distinct)。
监控数据倾斜需要关注数据分布，增加数据质量监控和健康度巡检。
Spark 3.0提供了通用倾斜算法，支持更多场景的数据倾斜处理。
开启Spark SQL的自适应关联优化和调整BroadcastHashJoin的阈值可以减少数据倾斜。
通过SQL抽样和sample抽样可以定位倾斜key，帮助优化数据处理。

🏷️

继续阅读

OpenAI是如何构建其数据代理的
OpenAI的数据平台存储了1.5 exabytes的数据，支持约4000名内部用户。为提高数据分析效率，OpenAI开发了一个数据代理，能够快速回答用户...
用 Amazon Quick 加速日常数据工作
Amazon Quick 是一款企业办公助手，利用自然语言处理技术提升数据处理效率。用户只需描述需求，Quick 即可自动分析、生成报告和执行工作流程，适...
DMIT宣布清退TYO EB系列产品(东京) 用户需在6月15日前备份数据和迁移业务
DMIT宣布东京TYO EB系列服务器将于2026年6月15日下线，用户需及时备份数据并迁移业务。为此，DMIT提供了多项补偿措施，包括升级到Pro系列享...
微软押注企业AI竞赛将依赖数据上下文而非模型能力
微软在Build 2026开发者大会上推出了Microsoft Fabric，旨在解决企业AI中的数据上下文问题。新平台包括HorizonDB数据库、GP...
Visual Studio Code 1.123
Visual Studio Code 1.123版本更新了多个功能，包括在Agents窗口中继续聊天、集成浏览器区域截图和支持仅发送附件的请求。修复了Py...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。

浅谈离线数据倾斜

内容提要

关键要点

标签

继续阅读