Planet PostgreSQL ·

亚当·亨德尔：在Postgres上实现向量数据库的运营

💡 原文英文，约1400词，阅读约需6分钟。

📝

内容提要

为了高效地存储、索引和搜索浮点数组，我们需要向量数据库。生成和搜索嵌入向量的过程需要保持一致性，以确保模型的输出可靠。pg_vectorize解决了这个问题，它跟踪了用于生成嵌入向量的转换模型，并提供了管理转换的方法。pg_vectorize还支持定时和实时更新嵌入向量的方式。它可以使用不同的转换模型生成嵌入向量，并支持OpenAI和Hugging Face的嵌入模型。pg_vectorize是开源的，可在GitHub上获取。

🎯

关键要点

向量数据库用于高效存储、索引和搜索浮点数组。
生成和搜索嵌入向量的过程需要保持一致性，以确保模型输出可靠。
pg_vectorize跟踪用于生成嵌入向量的转换模型，并提供管理转换的方法。
pg_vectorize支持定时和实时更新嵌入向量。
pg_vectorize可以使用不同的转换模型生成嵌入向量，支持OpenAI和Hugging Face的嵌入模型。
生成嵌入的过程不是一次性任务，而是需要持续维护的生命周期。
在推理阶段，输入数据需要经过与训练阶段相同的转换。
pg_vectorize通过跟踪转换模型解决了嵌入生成和搜索的一致性问题。
pg_vectorize提供两种管理嵌入更新的方法：基于时间的调度和实时触发。
pg_vectorize支持OpenAI和Hugging Face的所有转换模型，包括私有模型。
可以直接通过vectorize.transform_embeddings将文本转换为嵌入。
pg_vectorize和VectorDB Stack仍在持续改进中，未来将支持更多嵌入模型源。

❓

延伸问答

pg_vectorize是如何解决嵌入向量生成一致性的问题的？

pg_vectorize通过跟踪用于生成嵌入向量的转换模型，确保在生成和搜索嵌入时使用相同的模型和预处理步骤，从而解决了一致性问题。

如何使用pg_vectorize进行实时更新嵌入向量？

pg_vectorize支持两种更新嵌入向量的方法：基于时间的调度和实时触发，用户可以选择适合的方式来管理嵌入更新。

pg_vectorize支持哪些嵌入模型？

pg_vectorize支持OpenAI的所有嵌入模型和Hugging Face的所有句子嵌入模型，包括用户自定义的私有模型。

为什么需要向量数据库？

向量数据库用于高效存储、索引和搜索浮点数组，特别是在处理嵌入向量时，能够提高数据检索的效率和准确性。

如何将文本转换为嵌入？

可以通过调用vectorize.transform_embeddings函数，将文本直接转换为嵌入，指定所需的模型名称。

pg_vectorize的开源代码在哪里可以找到？

pg_vectorize的开源代码可以在GitHub上获取，用户可以自由下载和使用。

🏷️

继续阅读

支持演进式数据库开发：使用Lakehouse的数据库分支，续篇
文章讨论了数据库设计方法的演变，重点介绍了Databricks Lakehouse的复制写入分支技术。这项技术使开发者能够轻松创建独立的数据库分支，提高了...
肖恩·托马斯：期待Postgres 19：查询提示
Postgres 19引入了pg_plan_advice和pg_stash_advice模块，提供查询建议功能，帮助优化器选择更好的执行计划。此功能允许D...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
自主代理面临的最大挑战：数据库。
大型语言模型正在从简单的聊天机器人发展为能够推理和行动的自主代理，但数据库优化的复杂性仍是主要挑战。卡内基梅隆大学的安迪·帕夫洛指出，AI在数据库领域的影...
为何自主智能使运营平台成为企业中最重要的层级
企业在人工智能应用中面临的主要挑战是运营复杂性。Hewlett Packard Enterprise的Latha Vishnubhotla指出，基础设施的...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...