Timescale Blog ·

TimescaleDB中的SkipScan：为何DISTINCT查询缓慢，我们是如何构建它的，以及您如何使用它

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

SkipScan是一种优化PostgreSQL查询性能的新方法，特别适用于处理大量数据。它通过跳过不必要的行和批次，将DISTINCT查询的时间复杂度从O(N)降低到O(K × log N)，显著提高查询速度。SkipScan首次在TimescaleDB中应用，支持多列去重，适合IoT和金融分析等场景。

🎯

关键要点

SkipScan是一种优化PostgreSQL查询性能的新方法，特别适用于处理大量数据。
SkipScan通过跳过不必要的行和批次，将DISTINCT查询的时间复杂度从O(N)降低到O(K × log N)。
SkipScan首次在TimescaleDB中应用，支持多列去重，适合IoT和金融分析等场景。
在PostgreSQL中，DISTINCT查询通常需要遍历每一行，导致查询时间延长。
SkipScan利用B树的顺序跳过不必要的行，从而提高查询速度。
SkipScan在TimescaleDB 2.2.0中首次实现，并在后续版本中扩展了对列存储的支持。
在列存储中，SkipScan通过跳过整个批次来提高查询效率，避免不必要的解压缩。
SkipScan的工作原理是根据段键而非行来跳转，只接触每个不同值的第一个相关批次。
SkipScan在列存储中应用时，DISTINCT键必须是领先的段键，以确保安全跳转。
SkipScan在实际应用中显著提高了查询性能，例如在IoT设备和金融交易中。
多列SkipScan支持在2.22.0中添加，但仅适用于不产生NULL的查询。
使用SkipScan时，设计布局时应确保去重列在前，并创建相应的索引。
SkipScan可以在数十亿行的数据集上实现毫秒级的去重，减少解压缩的元组数量。

🔎

延伸解读

SkipScan的工作原理

SkipScan通过利用B树的顺序结构，跳过不必要的行和批次，从而显著提高DISTINCT查询的效率。它的时间复杂度从O(N)降低到O(K × log N)，在处理大数据集时，尤其是当K远小于N时，能实现毫秒级的查询响应。这种优化特别适合IoT和金融分析等需要快速响应的场景。

多列SkipScan的应用限制

在2.22.0版本中引入的多列SkipScan功能，虽然增强了查询的灵活性，但仅适用于不产生NULL值的查询。这意味着在设计数据库时，确保去重列不包含NULL值是至关重要的，否则将无法利用这一优化。用户在构建查询时需特别注意这一限制，以避免性能损失。

SkipScan的实际应用场景

SkipScan在实际应用中表现出色，尤其是在IoT设备监控和金融交易分析中。通过快速获取最新数据或计算去重值，用户能够在数十亿行的数据集中实现高效查询。这种性能提升不仅减少了查询时间，还优化了系统资源的使用，适合需要实时数据处理的业务场景。

❓

延伸问答

SkipScan是如何提高PostgreSQL查询性能的？

SkipScan通过跳过不必要的行和批次，将DISTINCT查询的时间复杂度从O(N)降低到O(K × log N)，显著提高查询速度。

SkipScan首次在哪个版本的TimescaleDB中实现？

SkipScan首次在TimescaleDB 2.2.0中实现。

SkipScan适合哪些应用场景？

SkipScan适合IoT和金融分析等场景，能够快速处理大量数据的DISTINCT查询。

在使用SkipScan时，如何设计数据库布局？

设计布局时应确保去重列在前，并创建相应的索引，以便SkipScan能够有效工作。

SkipScan在列存储中是如何工作的？

SkipScan在列存储中通过跳过整个批次来提高查询效率，避免不必要的解压缩，并根据段键跳转。

SkipScan支持多列去重吗？

是的，SkipScan在2.22.0中支持多列去重，但仅适用于不产生NULL的查询。

🏷️