【大模型基础设施工程】17:RAG 工程全景

💡 原文中文,约25900字,阅读约需62分钟。
📝

内容提要

RAG(检索增强生成)是解决大语言模型(LLM)结构性缺陷的关键。它通过知识解耦和外部存储检索,降低幻觉率,实现知识快速更新,确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询,涉及文档解析、清洗、切片、嵌入和检索等环节,高质量的文档解析和有效的检索策略是其成功的基础。

🎯

关键要点

  • RAG(检索增强生成)解决了大语言模型(LLM)的结构性缺陷,包括幻觉、知识冻结、私有数据缺失和缺乏可追溯性。

  • RAG通过将知识解耦并存储在外部可查询的存储中,显著降低了幻觉率,实现了知识的快速更新,并确保私有数据的安全性。

  • RAG系统包括离线ETL和在线查询两个部分,涉及文档解析、清洗、切片、嵌入和检索等环节。

  • 高质量的文档解析和有效的检索策略是RAG成功的基础,文档解析的质量直接影响到RAG的准确率。

  • RAG流水线的离线ETL和在线查询路径必须分开,确保数据处理的高效性和准确性。

  • 在文档解析阶段,使用合适的工具和策略来处理不同类型的文档是至关重要的。

  • 切片(Chunking)是RAG的必修课,采用合适的切片策略可以提高检索的效率和准确性。

  • Embedding和索引是RAG的核心环节,选择合适的Embedding模型和索引策略对系统性能有重要影响。

  • 检索阶段结合向量和BM25混合检索方法,可以提高检索的准确性和鲁棒性。

  • 重排(Rerank)阶段通过使用cross-encoder模型来提高检索结果的相关性,确保最终输出的答案质量。

  • Query改写与路由是提升RAG效果的关键,通过改写用户查询可以提高检索的准确性。

  • 上下文组装与引用回填确保生成的答案具有可追溯性,增强用户信任。

  • RAG的评估机制包括检索层和生成层的双重评估,确保系统的整体性能和可靠性。

  • 离线ETL与在线服务的架构设计需要考虑可观测性和安全性,确保数据处理的透明性和合规性。

  • 国内外的RAG生态系统正在不断发展,企业可以根据自身需求选择合适的托管平台或开源解决方案。

延伸问答

RAG的核心思想是什么?

RAG的核心思想是将知识从模型参数中解耦出来,存储在外部可查询的存储中,以降低幻觉率并实现知识的快速更新。

RAG系统的主要组成部分有哪些?

RAG系统主要包括离线ETL和在线查询两个部分,涉及文档解析、清洗、切片、嵌入和检索等环节。

如何提高RAG的检索准确性?

可以通过结合向量和BM25混合检索方法、使用cross-encoder模型进行重排、以及改写用户查询来提高检索的准确性。

RAG如何确保私有数据的安全性?

RAG通过将私有数据留在企业侧,不必回流到公有大模型中,从而确保私有数据的安全性。

文档解析在RAG中有多重要?

文档解析的质量直接影响到RAG的准确率,70%以上的准确率取决于文档解析的质量。

RAG的评估机制是怎样的?

RAG的评估机制包括检索层和生成层的双重评估,以确保系统的整体性能和可靠性。

➡️

继续阅读