云原生 ·

RAG：给模型“外挂知识库”

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

RAG（检索增强生成）使大语言模型（LLM）能够实时访问外部知识，避免死记硬背。通过动态数据和私有文档，模型生成基于检索结果的准确回答，提升信息更新能力并降低训练成本。

🎯

关键要点

RAG（检索增强生成）使大语言模型能够实时访问外部知识，避免死记硬背。
RAG 让大语言模型从内置知识升级为可挂载外部知识。
没有 RAG，大模型只能依赖预训练知识，无法实时更新。
RAG 解决了业务知识更新、实时信息访问和训练成本高的问题。
RAG 的标准流程包括检索、精排和生成三个环节。
Embedding 将文本转为语义向量，便于相似度计算。
向量数据库用于存储和检索高维向量，支持高效的相似度搜索。
Retriever 负责召回最相关的文档，常用策略包括向量检索和混合检索。
Rerank 对召回结果进行更精细的排序，提升答案准确度。
上下文构建策略包括 chunk 合并和文档摘要，需平衡长度与信息量。
LLM 根据检索到的证据生成有依据的回答，减少幻觉。
RAG 面临的工程挑战包括切片策略、用户提问不完整和上下文冲突。
RAG 是 AI 应用的核心基础设施之一，支持私有数据和实时数据。

❓

延伸问答

RAG是什么，它的主要功能是什么？

RAG（检索增强生成）是一种让大语言模型实时访问外部知识的技术，主要功能是避免模型死记硬背，通过动态数据和私有文档生成准确回答。

RAG如何解决大模型的知识更新问题？

RAG允许大模型访问实时信息和动态数据，从而解决了无法实时更新和访问业务知识的问题。

RAG的标准工作流程包括哪些步骤？

RAG的标准工作流程包括检索、精排和生成三个环节。

RAG中Embedding的作用是什么？

Embedding的作用是将文本转化为语义向量，以便进行相似度计算。

RAG面临哪些工程挑战？

RAG面临的工程挑战包括切片策略、用户提问不完整、上下文冲突等问题。

RAG如何减少模型生成的幻觉？

RAG通过根据检索到的证据生成有依据的回答，从而减少模型生成的幻觉。

🏷️

标签

RAG 动态数据外挂外部知识大语言模型知识库私有文档

➡️

继续阅读

大语言模型正在变成大编程模型
随着Claude Opus 4.7和4.8的推出，关于新模型语言能力下降的讨论增多。Arena AI的数据分析显示，基础模型的编程能力显著提升，几乎是语言...
2026 06 08 HackerNews
大语言模型正在影响软件工程师的职业生涯，导致专业知识和技能被替代。Meta承认因AI聊天机器人漏洞，导致超过2万Instagram账户被黑客入侵。美国国防...
深度估计准确率冲上0.9，Meta提出VLM³，论证视觉模型天生会学3D，以Qwen3-VL-4B为基础实现多任务的统一建模
三维空间感知是自动驾驶和机器人领域的核心能力，旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架，基于标准视觉语言模型，统一了...
NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置
NVIDIA发布了Nemotron 3.5 ASR，这是一个支持40种语言的流式自动语音识别模型，拥有6亿参数。该模型采用FastConformer-RN...
距离上线只差一个软件著作权证书
文章讨论了在中国上线Harmony APP所需的软件著作权证书申请过程。尽管开发已完成，但由于认证和分类加载等问题，提交延迟。申请审核可能需两到三个月，建...
Vibhor Kumar: pg_background 2.0: Run SQL in the Background, Now Cleaner, Safer, and Ready for PostgreSQL 19
Every PostgreSQL developer eventually reaches the same architectural boundary...