💡
原文英文,约1200词,阅读约需5分钟。
📝
内容提要
使用pg_vectorize,一个开源的Postgres扩展,可以将原始文本转换为数值向量,从而实现向量相似性搜索和语义搜索。pg_vectorize完全开源,可以在本地或自己的环境中运行。它还可以在Tembo Cloud的Tembo VectorDB Stack上使用,并可添加到任何Tembo Postgres实例中。使用SentenceTransformers库可以选择适合自己数据和用例的模型。pg_vectorize允许通过SQL使用Hugging Face的任何句子转换模型。使用vectorize.table()和vectorize.search()函数调用可以设置向量搜索作业和查询数据。结果以jsonb行的形式返回。
🎯
关键要点
- pg_vectorize是一个开源的Postgres扩展,可以将原始文本转换为数值向量,支持向量相似性搜索和语义搜索。
- pg_vectorize可以在本地或自己的环境中运行,也可以在Tembo Cloud的Tembo VectorDB Stack上使用。
- 使用SentenceTransformers库可以选择适合自己数据和用例的模型,支持通过SQL调用Hugging Face的句子转换模型。
- 生成向量需要将原始文本转换为浮点数组,之后可以进行向量相似性搜索等操作。
- pg_vectorize通过vectorize.table()和vectorize.search()函数简化了向量搜索的实现过程。
- vectorize.table()用于设置向量搜索作业,pg_vectorize会监控表的变化并自动处理数据转换。
- vectorize.search()用于根据原始文本查询数据,返回结果为jsonb格式,包括相似度评分。
- 机器学习工作负载通常需要与Postgres分开的计算资源,建议在不同主机上运行嵌入转换器。
- 在Tembo Cloud中,使用Kubernetes管理工作负载,提供灵活的计算资源分配。
🏷️
标签
➡️