土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】17：RAG 工程全景

💡 原文中文，约25900字，阅读约需62分钟。

📝

内容提要

RAG（检索增强生成）是解决大语言模型（LLM）结构性缺陷的关键。它通过知识解耦和外部存储检索，降低幻觉率，实现知识快速更新，确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询，涉及文档解析、清洗、切片、嵌入和检索等环节，高质量的文档解析和有效的检索策略是其成功的基础。

🎯

关键要点

RAG（检索增强生成）解决了大语言模型（LLM）的结构性缺陷，包括幻觉、知识冻结、私有数据缺失和缺乏可追溯性。
RAG通过将知识解耦并存储在外部可查询的存储中，显著降低了幻觉率，实现了知识的快速更新，并确保私有数据的安全性。
RAG系统包括离线ETL和在线查询两个部分，涉及文档解析、清洗、切片、嵌入和检索等环节。
高质量的文档解析和有效的检索策略是RAG成功的基础，文档解析的质量直接影响到RAG的准确率。
RAG流水线的离线ETL和在线查询路径必须分开，确保数据处理的高效性和准确性。
在文档解析阶段，使用合适的工具和策略来处理不同类型的文档是至关重要的。
切片（Chunking）是RAG的必修课，采用合适的切片策略可以提高检索的效率和准确性。
Embedding和索引是RAG的核心环节，选择合适的Embedding模型和索引策略对系统性能有重要影响。
检索阶段结合向量和BM25混合检索方法，可以提高检索的准确性和鲁棒性。
重排（Rerank）阶段通过使用cross-encoder模型来提高检索结果的相关性，确保最终输出的答案质量。
Query改写与路由是提升RAG效果的关键，通过改写用户查询可以提高检索的准确性。
上下文组装与引用回填确保生成的答案具有可追溯性，增强用户信任。
RAG的评估机制包括检索层和生成层的双重评估，确保系统的整体性能和可靠性。
离线ETL与在线服务的架构设计需要考虑可观测性和安全性，确保数据处理的透明性和合规性。
国内外的RAG生态系统正在不断发展，企业可以根据自身需求选择合适的托管平台或开源解决方案。

🔎

延伸解读

RAG的核心优势

RAG（检索增强生成）通过将知识解耦并存储在外部可查询的存储中，显著降低了大语言模型的幻觉率。这种方法不仅提高了知识更新的速度，还确保了私有数据的安全性和可追溯性，适用于医疗、法务等对准确性要求极高的领域。

文档解析的重要性

在RAG系统中，文档解析的质量直接影响到整体的检索效果。高质量的解析能够确保信息的准确提取，避免因解析错误导致的检索失败。因此，选择合适的解析工具和策略是成功实施RAG的关键。

检索策略的多样性

RAG系统中采用的混合检索策略结合了向量检索和BM25方法，能够在不同场景下提供更高的检索准确性。这种灵活性使得RAG能够适应多种业务需求，尤其是在处理专有名词和法律术语时，BM25的加入显得尤为重要。

评估机制的必要性

RAG的评估机制包括检索层和生成层的双重评估，确保系统的整体性能和可靠性。定期的评估和反馈能够帮助团队及时发现问题并进行优化，从而提升系统的准确性和用户信任度。

❓

延伸问答

RAG的核心思想是什么？

RAG的核心思想是将知识从模型参数中解耦出来，存储在外部可查询的存储中，以降低幻觉率并实现知识的快速更新。

RAG系统的主要组成部分有哪些？

RAG系统主要包括离线ETL和在线查询两个部分，涉及文档解析、清洗、切片、嵌入和检索等环节。

如何提高RAG的检索准确性？

可以通过结合向量和BM25混合检索方法、使用cross-encoder模型进行重排、以及改写用户查询来提高检索的准确性。

RAG如何确保私有数据的安全性？

RAG通过将私有数据留在企业侧，不必回流到公有大模型中，从而确保私有数据的安全性。

文档解析在RAG中有多重要？

文档解析的质量直接影响到RAG的准确率，70%以上的准确率取决于文档解析的质量。

RAG的评估机制是怎样的？

RAG的评估机制包括检索层和生成层的双重评估，以确保系统的整体性能和可靠性。

🏷️