土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】18：向量库与图 RAG

💡 原文中文，约25200字，阅读约需60分钟。

📝

内容提要

本文探讨了RAG（检索增强生成）中的存储与检索层，重点介绍向量索引算法的选择和量化方法，以及2024-2026年工业界的趋势。文章分为四部分：算法底层、产品选型、工程实操和图RAG与趋势，提供实用的参数和代码示例。向量检索主要使用近似最近邻（ANN）算法，推荐HNSW作为工业标准，并结合量化技术以降低内存占用。最后，GraphRAG结合知识图谱与向量检索，提升多跳推理能力。

🎯

关键要点

本文探讨了RAG中的存储与检索层，重点介绍向量索引算法的选择和量化方法。
向量检索主要使用近似最近邻（ANN）算法，推荐HNSW作为工业标准，并结合量化技术以降低内存占用。
IVF（倒排文件）算法通过聚类和倒排索引提高检索效率，适合大规模数据。
HNSW（分层可导航小世界图）是主流向量库的默认索引，具有高召回率和较低的内存占用。
量化方法如SQ、PQ和OPQ可以在压缩率与召回率之间进行权衡，RaBitQ是2024年的新兴技术。
2026年向量数据库市场将分为专用、扩展、云托管和国产四类，Milvus和Qdrant是主要的专用向量库。
GraphRAG结合知识图谱与向量检索，提升多跳推理能力，适用于复杂查询场景。
未来趋势包括Serverless架构、二值化技术的普及、Late Interaction的回潮和GraphRAG的工程化。

🔎

延伸解读

向量检索算法的选择

在选择向量检索算法时，HNSW被广泛推荐为工业标准，因其在高维数据中表现出色。对于大规模数据，IVF算法通过聚类和倒排索引提高检索效率，适合处理上亿级别的数据。了解不同算法的复杂度和内存占用，可以帮助工程师根据具体需求做出更合适的选择。

量化技术的应用

量化技术在向量检索中起到关键作用，能够有效降低内存占用。不同的量化方法如SQ、PQ和OPQ在压缩率与召回率之间存在权衡。RaBitQ作为新兴技术，提供了更高的压缩率和几乎无损的召回，适合百亿级数据的应用场景。

GraphRAG的优势与应用

GraphRAG结合知识图谱与向量检索，显著提升了多跳推理能力，适用于复杂查询场景。对于需要全局理解和多层次推理的任务，GraphRAG提供了更为精准的答案，尤其在金融、医疗等领域的应用潜力巨大。

❓

延伸问答

RAG中的向量索引算法有哪些选择？

RAG中的向量索引算法主要包括HNSW、IVF-Flat、IVF-PQ等，HNSW被推荐为工业标准。

HNSW算法的主要特点是什么？

HNSW算法具有高召回率和较低的内存占用，是主流向量库的默认索引。

量化方法在向量检索中有什么作用？

量化方法通过压缩向量来降低内存占用，同时在压缩率与召回率之间进行权衡。

GraphRAG如何提升多跳推理能力？

GraphRAG结合知识图谱与向量检索，通过图的结构提升多跳推理能力，适用于复杂查询场景。

2024-2026年向量数据库市场的趋势是什么？

未来向量数据库市场将分为专用、扩展、云托管和国产四类，技术趋势包括Serverless架构和二值化技术的普及。

如何选择适合的向量库？

选择向量库时应考虑规模、成本、是否需要混合检索和多跳问答等需求。

🏷️