Timescale Blog ·

在CloudNativePG Kubernetes Operator上部署TimescaleDB向量搜索

💡 原文英文，约3600词，阅读约需13分钟。

📝

内容提要

本文介绍了如何在CloudNativePG上部署TimescaleDB和向量搜索。通过构建自定义镜像，解决了TimescaleDB与CloudNativePG的架构不兼容问题，采用四阶段Dockerfile构建过程，确保与PostgreSQL兼容，最终实现了在Kubernetes上高效处理时间序列和向量数据，验证了系统功能和性能。

🎯

关键要点

本文介绍了如何在CloudNativePG上部署TimescaleDB和向量搜索。
CloudNativePG采用操作驱动的PostgreSQL管理，通过Kubernetes自定义资源定义（CRD）执行集群生命周期操作。
TimescaleDB官方镜像与CloudNativePG的架构不兼容，需要构建自定义镜像。
自定义镜像的构建过程采用四阶段Dockerfile，确保与PostgreSQL兼容。
构建自定义镜像解决了架构冲突，保持了操作兼容性。
Dockerfile的第一阶段编译pgvector，第二阶段编译pgvectorscale，第三阶段安装TimescaleDB，第四阶段组装运行时镜像。
构建并推送镜像后，需要创建ImageCatalog资源以引用自定义PostgreSQL镜像。
创建集群清单定义PostgreSQL部署拓扑、存储配置和扩展初始化。
验证集群状态和扩展加载情况，确保所有扩展正常工作。
示例应用程序演示了时间序列数据与向量嵌入的结合，验证了堆栈集成。
验证自定义镜像集成和堆栈功能，确保所有组件正常工作。
测试数据集和方法论验证了时间窗口查询性能和向量搜索性能。
压缩功能正常工作，自动压缩策略在数据超过30天后激活。
在资源受限的K3s测试中，提供了内存配置和存储策略的优化见解。
DiskANN与HNSW的选择框架帮助在不同场景下选择合适的索引方法。
CloudNativePG的PgBouncer支持连接池，适应AI工作负载的连接模式。
结论是构建了一个在Kubernetes上运行的AI数据平台的基础，验证了堆栈在演示规模下的功能。

🔎

延伸解读

CloudNativePG与传统管理方式的对比

CloudNativePG采用Kubernetes原生的操作驱动模型，取代了传统的脚本驱动管理方式。这种转变使得集群生命周期操作更加自动化和声明式，适合现代云环境的需求。相比之下，传统的Patroni管理方式需要手动协调，可能导致管理复杂性增加。

自定义镜像构建的挑战与解决方案

由于TimescaleDB官方镜像与CloudNativePG架构不兼容，构建自定义镜像成为必要步骤。通过四阶段Dockerfile的构建过程，确保了与PostgreSQL的兼容性。这一过程虽然复杂，但为后续的扩展和维护提供了灵活性和控制力。

资源优化与性能测试的启示

在资源受限的K3s环境中进行的测试显示，内存配置和存储策略的优化至关重要。测试结果表明，合理的内存分配和使用DiskANN索引可以在保证性能的同时，降低基础设施成本。这为在类似环境中部署AI应用提供了实用的参考。

❓

延伸问答

如何在CloudNativePG上部署TimescaleDB和向量搜索？

通过构建自定义镜像，解决TimescaleDB与CloudNativePG的架构不兼容问题，采用四阶段Dockerfile构建过程，确保与PostgreSQL兼容。

为什么TimescaleDB官方镜像与CloudNativePG不兼容？

TimescaleDB的镜像架构与CloudNativePG的操作要求不同，导致初始化过程和数据路径不匹配。

自定义镜像的构建过程是怎样的？

自定义镜像的构建采用四阶段Dockerfile，分别编译pgvector、pgvectorscale、安装TimescaleDB，并组装运行时镜像。

如何验证集群状态和扩展加载情况？

可以通过执行SQL查询来验证扩展是否正确加载，并检查集群的状态。

在资源受限的K3s测试中，有哪些优化见解？

测试中提供了内存配置和存储策略的优化见解，确保在资源受限环境中有效运行。

DiskANN和HNSW的选择框架是什么？

DiskANN适合资源受限的环境，而HNSW适合需要亚毫秒查询延迟的场景，选择依据包括内存和延迟需求。

🏷️