Planet PostgreSQL ·

谢尔盖·普罗宁：使用开源工具和pgvector创建AI专家

💡 原文英文，约2800词，阅读约需10分钟。

📝

内容提要

2023年是AI的一年，许多公司正在思考如何利用AI改善用户体验。本文将介绍如何利用公司数据构建自己的AI专家，并展示代码概念。

🎯

关键要点

2023年是人工智能（AI）的一年，许多公司正在思考如何利用AI改善用户体验。
利用公司数据（内部文档、工单系统等）快速回答客户问题是常见的第一步。
本文将介绍如何使用公司数据构建自己的AI专家，并展示代码概念。
目标包括：提供基础设施、捕获公司数据并存储在PostgreSQL中、提问并生成响应。
向读者解释一些术语，如向量嵌入、大型语言模型（LLM）和令牌。
向量嵌入是数据的数值表示，捕捉其含义和关系，通常存储在向量数据库中。
大型语言模型（LLM）是驱动AI的深度学习算法集合，能够执行多种任务。
令牌是LLM中模型读取或生成的文本块，通常不是单词，而是字符或短语。
Hugging Face是一个开源公司，提供机器学习和AI的解决方案和工具。
pgvector是PostgreSQL的扩展，允许存储向量嵌入，可以在Kubernetes上安装。
创建数据库表以存储内容和向量嵌入，使用pgvector的新数据类型。
使用GPU加速向量嵌入的创建，Python是机器学习任务中广泛使用的语言。
使用sentence_transformers库生成嵌入，利用BeautifulSoup解析公司文档。
将文档分割成较小的块以提高语义搜索的效果。
将生成的嵌入存储到pgvector中，使用psycopg2连接PostgreSQL。
通过match_documents函数进行语义搜索，返回与用户输入相关的URL。
使用HuggingFace的pipeline进行问题回答，结合用户问题和上下文。
建议在实际应用中对模型进行训练，以提高回答的准确性。
可以使用公共API生成嵌入和回答问题，方便集成。
使用pgvector存储嵌入是一个不错的选择，能够提升用户体验和自动化业务流程。

🏷️

谢尔盖·普罗宁：使用开源工具和pgvector创建AI专家

内容提要

关键要点

标签

继续阅读