Planet PostgreSQL ·

戴夫·佩奇：使用PostgreSQL构建RAG服务器 - 第2部分：文档分块与嵌入

💡 原文英文，约1700词，阅读约需7分钟。

📝

内容提要

本文介绍如何使用pgEdge Vectorizer将文档分块并生成向量嵌入，以实现基于语义的搜索。通过将文档拆分为小块，系统能够更精确地检索相关内容。pgEdge Vectorizer作为PostgreSQL扩展，自动处理文档更新和嵌入生成，简化管理流程。

🎯

关键要点

本文介绍如何使用pgEdge Vectorizer将文档分块并生成向量嵌入，以实现基于语义的搜索。
pgEdge Vectorizer作为PostgreSQL扩展，自动处理文档更新和嵌入生成，简化管理流程。
向量嵌入是文本的数值表示，捕捉语义意义，使得相似概念在向量空间中靠近。
分块是必要的，因为嵌入模型有令牌限制，较小的块提供更集中的结果。
pgEdge Vectorizer在PostgreSQL内部运行，自动处理文档的分块和嵌入生成。
使用pgEdge Vectorizer的优点包括无需外部服务、嵌入与数据自动同步、使用标准SQL进行相似性搜索。
使用pgEdge Vectorizer前需要安装PostgreSQL 14或更高版本及pgvector扩展。
配置PostgreSQL以加载pgEdge Vectorizer扩展并设置嵌入提供者的API密钥。
创建pgEdge Vectorizer扩展并启用文档表的自动向量化。
监控后台工作进程以查看文档处理状态和生成的块。
生成的块表包含块的主键、源文档ID、块索引、内容、令牌计数和向量嵌入。
使用pgvector扩展的generate_embedding()函数进行语义搜索。
支持多种嵌入提供者，包括OpenAI、Voyage AI和本地Ollama。
向量化支持基于令牌的分块策略，确保上下文不丢失。
更新文档时，触发器会自动处理旧块的删除和新内容的分块。
后台工作进程会自动清理完成的队列条目，用户也可以手动清理。
可以重试失败的项，或在更改分块大小后重新创建块。
最终构建了一个支持语义搜索的数据库，能够根据意义而非关键词匹配找到相关内容。

🏷️

继续阅读

科尔内利亚·比亚奇克斯：2026年第9周的贡献
2026年3月4日，科隆举行第7届PostgreSQL用户组会议，3月5日在柏林举办相关活动。SCALE 23x大会设有PostgreSQL专场，众多讲者和志愿者参与。
Practical Optimization of TiDB Vector Queries:
文章描述了数据库表`documents`的创建，包括字段定义、主键约束和索引设置，表中存储文档的ID、标题、描述和内容，并生成向量嵌入。
Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
golang 生成 word 文档，模板替换问题排查
在开发人事管理系统的入职登记表时，使用Golang替换Word模板中的占位符时遇到问题，部分占位符无法替换，怀疑是Word模板本身的问题。解压DOCX文件...
Harmonic 将在 2026 年 NAB 展会上发布下一代媒体服务器和 AI 编排技术
Harmonic将在2026年NAB展会上推出升级的视频设备和SaaS平台，重点是下一代媒体服务器和AI工具，旨在简化视频工作流程、降低成本并帮助媒体公司...
Rspress 2.0：AI原生文档、更快的启动和重新设计的主题
Rspress 2.0将于2026年1月30日发布，改进了主题设计、构建性能和AI集成。新版本提供可自定义的默认主题和SSG-MD功能，提升Markdow...

戴夫·佩奇：使用PostgreSQL构建RAG服务器 - 第2部分：文档分块与嵌入

内容提要

关键要点

标签

继续阅读