TimescaleDB中的SkipScan：为何DISTINCT查询缓慢，我们是如何构建它的，以及您如何使用它

Timescale Blog ·

TimescaleDB中的SkipScan：为何DISTINCT查询缓慢，我们是如何构建它的，以及您如何使用它

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

SkipScan是一种优化PostgreSQL查询性能的新方法，特别适用于处理大量数据。它通过跳过不必要的行和批次，将DISTINCT查询的时间复杂度从O(N)降低到O(K × log N)，显著提高查询速度。SkipScan首次在TimescaleDB中应用，支持多列去重，适合IoT和金融分析等场景。

🎯

关键要点

SkipScan是一种优化PostgreSQL查询性能的新方法，特别适用于处理大量数据。
SkipScan通过跳过不必要的行和批次，将DISTINCT查询的时间复杂度从O(N)降低到O(K × log N)。
SkipScan首次在TimescaleDB中应用，支持多列去重，适合IoT和金融分析等场景。
在PostgreSQL中，DISTINCT查询通常需要遍历每一行，导致查询时间延长。
SkipScan利用B树的顺序跳过不必要的行，从而提高查询速度。
SkipScan在TimescaleDB 2.2.0中首次实现，并在后续版本中扩展了对列存储的支持。
在列存储中，SkipScan通过跳过整个批次来提高查询效率，避免不必要的解压缩。
SkipScan的工作原理是根据段键而非行来跳转，只接触每个不同值的第一个相关批次。
SkipScan在列存储中应用时，DISTINCT键必须是领先的段键，以确保安全跳转。
SkipScan在实际应用中显著提高了查询性能，例如在IoT设备和金融交易中。
多列SkipScan支持在2.22.0中添加，但仅适用于不产生NULL的查询。
使用SkipScan时，设计布局时应确保去重列在前，并创建相应的索引。
SkipScan可以在数十亿行的数据集上实现毫秒级的去重，减少解压缩的元组数量。

🏷️

继续阅读

科尔内利亚·比亚奇克斯：2026年第9周的贡献
2026年3月4日，科隆举行第7届PostgreSQL用户组会议，3月5日在柏林举办相关活动。SCALE 23x大会设有PostgreSQL专场，众多讲者和志愿者参与。
Radim Marek：无生产数据的生产查询计划
之前的讨论表明，注入relpages并不有效，因为规划器会根据实际文件大小进行检查并按比例缩放，这限制了其对绝对行数的估计。要获得与生产环境相符的数字，仍...
苹果智能家居显示器的传闻现在指向将在秋季发布，搭载iOS 27
The rumored "HomePod with a screen" we've heard so much about was...
政府停摆影响机场，但ICE不受影响
Chaos reigned at airports across the country last weekend, with thousands of ...
一切都在赌博中：过去一周的所有事情
Kalshi致力于吸引更多女性用户，过去十个月女性用户比例从13%提升至26%。联合创始人表示，此变化旨在迎合女性的兴趣和专业需求。
OpenAI和谷歌的员工支持Anthropic对五角大楼的诉讼
致命自主武器在新环境中表现不可靠，无法准确识别目标，缺乏人类判断能力，因此决策过程中需有人类参与以确保安全。

TimescaleDB中的SkipScan：为何DISTINCT查询缓慢，我们是如何构建它的，以及您如何使用它

内容提要

关键要点

标签

继续阅读