Planet PostgreSQL ·

塞马布·塔里克：在pgvector中使用并行索引构建将HNSW构建速度提高80%

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

随着pgvector 0.6的发布，HNSW的索引构建能力有了重大更新，即并行索引构建。并行索引构建利用并行处理来加快索引创建速度，可以更好地利用系统资源。在基准测试中，显示并行索引构建比传统的单线程索引构建快80%。通过设置max_parallel_maintenance_workers参数，可以控制最大并行工作者数量，平衡查询和维护任务的工作负载。

🎯

关键要点

pgvector 0.6发布了HNSW的并行索引构建能力。
并行索引构建利用多个工作线程同时创建索引，显著加快索引创建速度。
基准测试显示并行索引构建比传统单线程构建快80%。
max_parallel_maintenance_workers参数控制最大并行工作者数量，平衡查询和维护任务的工作负载。
max_parallel_maintenance_workers在max_worker_processes的限制内运行。
测试环境包括AWS云服务，t2.2xlarge实例，8核CPU和32GB内存。
基准测试结果显示，使用8个并行工作者将索引构建时间从1小时46分钟缩短至20分钟。

❓

延伸问答

pgvector 0.6的主要更新是什么？

pgvector 0.6发布了HNSW的并行索引构建能力。

什么是并行索引构建？

并行索引构建是指利用多个工作线程同时创建索引，从而加快索引创建速度。

并行索引构建比传统单线程构建快多少？

基准测试显示并行索引构建比传统单线程构建快80%。

如何设置并行工作者的数量？

通过设置max_parallel_maintenance_workers参数，可以控制最大并行工作者数量。

测试环境的配置是什么？

测试环境包括AWS云服务，t2.2xlarge实例，8核CPU和32GB内存。

使用8个并行工作者的索引构建时间是多少？

使用8个并行工作者将索引构建时间缩短至20分钟。

🏷️