DEV Community ·

修复 Redshift 清理操作以优化查询性能

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

即使架构设计得当，Redshift 查询仍可能因后台长时间运行的清理操作而变慢，导致 ETL 作业和分析查询速度下降高达 80%。本文提供了加速清理的技巧，如按排序键顺序插入数据、使用压缩编码和深拷贝替代清理，以提升查询性能。

🎯

关键要点

即使架构设计得当，Redshift 查询仍可能因后台长时间运行的清理操作而变慢。
清理操作可能导致 ETL 作业和分析查询速度下降高达 80%。
清理过程包括排序表和回收未使用的磁盘空间。
建议定期进行清理，并选择合适的排序键和分布键。
按排序键顺序插入数据可以减少清理时的合并成本。
使用压缩编码可以在磁盘上实现 2-4 倍的压缩。
对于大表，深拷贝可能比清理更有效，尤其是当未排序部分超过 20% 时。
清理后应调用 ANALYZE 更新查询规划器，以提高读取性能。
在每日插入量少于现有表的 5% 时，建议将清理推至 99%。
保持表的精简，移除未使用的列，避免过宽的表结构。

🔎

延伸解读

清理操作的影响

Redshift 的清理操作可能会显著影响查询性能，尤其是在 ETL 作业和分析查询中。长时间的清理过程会导致查询速度下降高达 80%。因此，定期进行清理并优化清理策略是确保系统高效运行的关键。

排序键的重要性

在插入数据时按排序键顺序进行，可以减少清理时的合并成本。这意味着选择合适的排序键并确保数据插入顺序符合排序规则，将直接影响查询性能和清理效率。

深拷贝的优势

当表的未排序部分超过 20% 时，使用深拷贝替代清理可能更为高效。深拷贝不仅能更快完成操作，还能减少资源占用，但需要注意的是，执行深拷贝时需要额外的磁盘空间。

保持表结构精简

保持表的精简，移除未使用的列，可以有效提高查询性能。过宽的表结构会增加清理操作的复杂性，影响整体性能。因此，合理设计表结构是优化 Redshift 性能的重要环节。

❓

延伸问答

Redshift 查询性能下降的主要原因是什么？

Redshift 查询性能下降的主要原因是后台长时间运行的清理操作，尤其是 vacuum 过程。

如何优化 Redshift 的清理操作以提高查询性能？

可以通过按排序键顺序插入数据、使用压缩编码和深拷贝替代清理来优化清理操作。

在什么情况下应该使用深拷贝而不是清理？

当表的未排序部分超过 20% 时，使用深拷贝可能比清理更有效。

使用压缩编码对 Redshift 查询有什么好处？

使用压缩编码可以在磁盘上实现 2-4 倍的压缩，减少 I/O 成本，提高查询性能。

如何保持 Redshift 表的精简？

可以通过移除未使用的列和避免过宽的表结构来保持表的精简。

在进行清理后为什么需要调用 ANALYZE？

调用 ANALYZE 可以更新查询规划器，以提高读取性能，因为清理可能会显著重组表。

🏷️