小红花·文摘

本文探讨了Trino的Exchange机制及其在分布式OLAP中的重要性，涵盖了不同的分区方案（如HASH、BROADCAST）、LocalExchange与RemoteExchange的区别、Broadcast join与Shuffle join的比较，以及如何通过EXPLAIN ANALYZE识别数据倾斜。此外，文章还比较了Trino与Spark在处理数据倾斜时的策略，强调了运行时优化与SQL改写的重要性。

【分布式 OLAP 查询引擎】Shuffle 与 Exchange：分区、广播与倾斜

土法炼钢兴趣小组的博客 ·

本文讨论了分布式查询引擎中的常见故障及其排查方法，包括全表扫描、数据倾斜、内存溢出（OOM）和任务延迟。针对每种故障，提供了触发条件、观测信号和修复策略，强调合理配置和优化查询计划的重要性。

【分布式 OLAP 查询引擎】经典故障与排查

土法炼钢兴趣小组的博客 ·

本文介绍了GaussDB(DWS)性能调优中的两个优化案例，通过改写SQL解决了维度表未进行分区剪枝和数据倾斜的问题，以及删除关联条件并改写SQL解决了数据倾斜和性能差的问题，提高了SQL的执行性能。

GaussDB(DWS)性能调优，解决DM区大内存占用问题

华为云官方博客 ·

Flink数据倾斜理解

小令童鞋 ·

本文介绍了大数据查询分析引擎中的数据倾斜和数据膨胀问题，并提供了相应的解决方案。对于数据倾斜，可以从Map端优化、Reduce端优化和Join端优化三个方面进行优化。对于数据膨胀，可以避免笛卡尔积、关注关联key的区分度和避免误用聚合操作。此外，还介绍了如何排查和定位长时间运行或失败的业务SQL，并给出了优化思路。总结指出大数据SQL优化是一项知识面较广的工作，需要学习查询分析引擎设计原理。

大数据 SQL 数据倾斜与数据膨胀的优化与经验总结

阿里云云栖号 ·

Elizabeth Garrett Christensen：Postgres中的数据倾斜

Planet PostgreSQL ·

本文介绍了优化大数据平台中的数据倾斜问题，包括增加内存、增加reduce个数、自定义分区、重新设计key和使用combinner合并等方法。同时，通过观察Spark UI定位问题，并通过参数调节和SQL语句调节来解决Hive数据倾斜问题。对于Shuffle时数据不均匀导致的数据倾斜，可以采用打散key进行二次聚合、改变join方式、开启spark自适应框架、优化SQL等方法来解决。Spark 3.0中提供了通用倾斜算法来处理更多场景的数据倾斜问题。

浅谈离线数据倾斜

京东科技开发者 ·

张宾提出了一种将抖快电商业务与京东电商供应链连接的方案，采用TiDB作为数据存储，使用Spring提供的AbstractRoutingDataSource实现多数据源支持，利用DRC平台完成MySQL数据库数据迁移，解决数据倾斜和提升系统处理性能，查询性能提升了5倍，并将帐数据和历史订单详情数据直接写入TiDB。

TiDB在OMS供应链系统订单业务域的应用

京东科技开发者 ·