宝玉的分享 ·

RAG的5种切分策略 [译]

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

RAG应用通过将信息存为向量，与查询匹配后传给大语言模型。切分策略包括固定大小、语义、递归、文档结构和基于LLM的切分。固定大小简单但可能破坏语义，语义切分流畅但需设阈值，递归灵活但复杂，文档结构完整但长度不一，LLM切分准确但成本高。选择需考虑内容、模型能力和资源。

🎯

🔎

在选择RAG的切分策略时，内容的性质、模型能力和计算资源是关键因素。固定大小切分虽然简单，但可能导致信息丢失；而基于LLM的切分虽然准确，但成本高昂。了解每种策略的优缺点，有助于根据具体需求做出明智选择。

语义切分能够保持文本的自然流畅性，提高检索准确度，但确定相似度阈值的过程可能因文档而异，增加了实施的复杂性。用户在应用时需关注这一点，以确保切分效果符合预期。

递归切分方法通过内在分隔符进行切分，保持了语言的流畅性，但其实现复杂性较高。对于需要处理大文档的场景，递归切分提供了灵活性，但也需考虑额外的计算开销。

❓

RAG的切分策略包括固定大小切分、语义切分、递归切分、基于文档结构的切分和基于LLM的切分。

固定大小切分易于实现且段落大小相同，但可能破坏语义流畅性，导致重要信息分散。

语义切分根据有意义的单元切分文档，保持语言流畅性，使得每个切片语义更丰富，从而提高检索准确度。

递归切分基于内在分隔符进行切分，虽然保持语言流畅性，但在实现和计算复杂性方面有额外开销。

基于文档结构的切分假设文档结构清晰，但切片长度可能不同，甚至超过模型的Token限制。

选择切分策略需考虑内容性质、嵌入模型能力和计算资源等因素。

🏷️