DEV Community ·

在PostgreSQL中使用pg_vector存储和查询OpenAI嵌入

💡 原文英文，约900词，阅读约需3分钟。

📝

内容提要

本文介绍了如何利用PostgreSQL的pg_vector扩展高效存储和查询OpenAI文本嵌入，适用于语义搜索和相似性匹配系统。设置数据库后，使用TypeScript实现文档添加和相似性搜索。通过优化索引和批量插入提升性能，适合生产环境。

🎯

🔎

使用PostgreSQL的pg_vector扩展，可以原生处理向量操作，支持快速的相似性搜索。这种方法不仅适合大数据集，还比专用向量数据库更具成本效益，适合构建语义搜索和推荐系统。

在使用pg_vector时，建议进行批量插入和索引调优，以提升性能。此外，使用连接池和定期执行VACUUM操作，可以有效维护索引效率，确保系统在生产环境中的稳定性。

文档表的设计至关重要，包括内容、嵌入、元数据和创建时间戳等字段。这种结构不仅支持灵活的数据存储，还能提高相似性搜索的效率，确保数据的完整性和可追溯性。

❓

首先需要启用pg_vector扩展，创建文档表，并使用IVFFlat索引加快相似性搜索。

pg_vector允许PostgreSQL原生处理向量操作，支持快速相似性搜索，适合大数据集且成本低于专用向量数据库。

使用TypeScript创建一个VectorStore类，包含addDocuments和similaritySearch方法来处理文档的添加和相似性查询。

使用余弦距离运算符将距离转换为相似度分数，查询时按相似度分数排序。

建议使用批量插入、调整索引、使用连接池和定期进行VACUUM操作。

提供了一个强大、可扩展的解决方案，适合构建语义搜索系统和推荐引擎，平衡了性能、成本和可维护性。

🏷️