【大模型基础设施工程】17:RAG 工程全景
内容提要
RAG(检索增强生成)是解决大语言模型(LLM)结构性缺陷的关键。它通过知识解耦和外部存储检索,降低幻觉率,实现知识快速更新,确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询,涉及文档解析、清洗、切片、嵌入和检索等环节,高质量的文档解析和有效的检索策略是其成功的基础。
关键要点
-
RAG(检索增强生成)解决了大语言模型(LLM)的结构性缺陷,包括幻觉、知识冻结、私有数据缺失和缺乏可追溯性。
-
RAG通过将知识解耦并存储在外部可查询的存储中,显著降低了幻觉率,实现了知识的快速更新,并确保私有数据的安全性。
-
RAG系统包括离线ETL和在线查询两个部分,涉及文档解析、清洗、切片、嵌入和检索等环节。
-
高质量的文档解析和有效的检索策略是RAG成功的基础,文档解析的质量直接影响到RAG的准确率。
-
RAG流水线的离线ETL和在线查询路径必须分开,确保数据处理的高效性和准确性。
-
在文档解析阶段,使用合适的工具和策略来处理不同类型的文档是至关重要的。
-
切片(Chunking)是RAG的必修课,采用合适的切片策略可以提高检索的效率和准确性。
-
Embedding和索引是RAG的核心环节,选择合适的Embedding模型和索引策略对系统性能有重要影响。
-
检索阶段结合向量和BM25混合检索方法,可以提高检索的准确性和鲁棒性。
-
重排(Rerank)阶段通过使用cross-encoder模型来提高检索结果的相关性,确保最终输出的答案质量。
-
Query改写与路由是提升RAG效果的关键,通过改写用户查询可以提高检索的准确性。
-
上下文组装与引用回填确保生成的答案具有可追溯性,增强用户信任。
-
RAG的评估机制包括检索层和生成层的双重评估,确保系统的整体性能和可靠性。
-
离线ETL与在线服务的架构设计需要考虑可观测性和安全性,确保数据处理的透明性和合规性。
-
国内外的RAG生态系统正在不断发展,企业可以根据自身需求选择合适的托管平台或开源解决方案。
延伸问答
RAG的核心思想是什么?
RAG的核心思想是将知识从模型参数中解耦出来,存储在外部可查询的存储中,以降低幻觉率并实现知识的快速更新。
RAG系统的主要组成部分有哪些?
RAG系统主要包括离线ETL和在线查询两个部分,涉及文档解析、清洗、切片、嵌入和检索等环节。
如何提高RAG的检索准确性?
可以通过结合向量和BM25混合检索方法、使用cross-encoder模型进行重排、以及改写用户查询来提高检索的准确性。
RAG如何确保私有数据的安全性?
RAG通过将私有数据留在企业侧,不必回流到公有大模型中,从而确保私有数据的安全性。
文档解析在RAG中有多重要?
文档解析的质量直接影响到RAG的准确率,70%以上的准确率取决于文档解析的质量。
RAG的评估机制是怎样的?
RAG的评估机制包括检索层和生成层的双重评估,以确保系统的整体性能和可靠性。