💡
原文英文,约2800词,阅读约需10分钟。
📝
内容提要
2023年是AI的一年,许多公司正在思考如何利用AI改善用户体验。本文将介绍如何利用公司数据构建自己的AI专家,并展示代码概念。
🎯
关键要点
- 2023年是人工智能(AI)的一年,许多公司正在思考如何利用AI改善用户体验。
- 利用公司数据(内部文档、工单系统等)快速回答客户问题是常见的第一步。
- 本文将介绍如何使用公司数据构建自己的AI专家,并展示代码概念。
- 目标包括:提供基础设施、捕获公司数据并存储在PostgreSQL中、提问并生成响应。
- 向读者解释一些术语,如向量嵌入、大型语言模型(LLM)和令牌。
- 向量嵌入是数据的数值表示,捕捉其含义和关系,通常存储在向量数据库中。
- 大型语言模型(LLM)是驱动AI的深度学习算法集合,能够执行多种任务。
- 令牌是LLM中模型读取或生成的文本块,通常不是单词,而是字符或短语。
- Hugging Face是一个开源公司,提供机器学习和AI的解决方案和工具。
- pgvector是PostgreSQL的扩展,允许存储向量嵌入,可以在Kubernetes上安装。
- 创建数据库表以存储内容和向量嵌入,使用pgvector的新数据类型。
- 使用GPU加速向量嵌入的创建,Python是机器学习任务中广泛使用的语言。
- 使用sentence_transformers库生成嵌入,利用BeautifulSoup解析公司文档。
- 将文档分割成较小的块以提高语义搜索的效果。
- 将生成的嵌入存储到pgvector中,使用psycopg2连接PostgreSQL。
- 通过match_documents函数进行语义搜索,返回与用户输入相关的URL。
- 使用HuggingFace的pipeline进行问题回答,结合用户问题和上下文。
- 建议在实际应用中对模型进行训练,以提高回答的准确性。
- 可以使用公共API生成嵌入和回答问题,方便集成。
- 使用pgvector存储嵌入是一个不错的选择,能够提升用户体验和自动化业务流程。
➡️