How to Build a Custom Knowledge Base RAG System from Scratch
💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
RAG是一种结合了检索和生成的机器学习模型,用于自然语言处理任务。文章介绍了基于京东云官网文档的RAG系统的实现步骤,包括数据收集、建立知识库、向量检索等。使用clickhouse作为向量数据库,使用langchain的Retriever工具集进行文档向量化和入库。构建了一个基于fastapi的简单的restful服务,用于检索问题和生成答案。最后使用gradio做了一个简易的对话界面。
🎯
关键要点
- RAG是一种结合检索和生成的机器学习模型,主要用于自然语言处理任务。
- 实现RAG系统的步骤包括数据收集、建立知识库和向量检索。
- 数据收集过程涉及收集、清洗、格式化和切分,使用京东云的官方文档作为知识库。
- 向量数据库选择clickhouse,因其与langchain的集成良好,支持SQL查询,学习成本低。
- 使用langchain的Retriever工具集进行文档向量化和入库,需自定义JD_DOC_Loader以适应特定格式。
- 构建基于fastapi的restful服务,用于检索问题和生成答案。
- 使用qwen 1.8B模型结合检索到的上下文回答问题,节约算力资源。
- 最终使用gradio创建简易对话界面,提供用户交互体验。
➡️