京东科技开发者 ·

RAG 分块策略：从原理到实战优化，喂饭级教程不允许你踩坑

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

本文探讨了在检索增强生成（RAG）中分块策略的重要性。分块是将大型文档分割成小片段以提高信息检索效率。主要分块策略包括固定大小分块、语义分块、递归分块和基于文档的分块。每种策略各有优缺点，选择合适的方法对提升RAG性能至关重要。建议从512个tokens和10-15%的重叠率开始，结合递归和语义分块进行优化。

🎯

关键要点

分块策略在检索增强生成（RAG）中至关重要，能够提高信息检索效率。
主要的分块策略包括固定大小分块、语义分块、递归分块和基于文档的分块，每种策略有其优缺点。
固定大小分块简单快速，但可能破坏语义完整性。
语义分块确保主题相关性，但计算成本高，处理速度慢。
递归分块保留语义结构，适应性强，但实现复杂。
基于文档的分块利用文档结构信息，适合特定类型文档，但通用性较弱。
建议从512个tokens和10-15%的重叠率开始，结合递归和语义分块进行优化。

🔎

延伸解读

分块策略的选择与应用

在选择分块策略时，需考虑文档类型和具体应用场景。固定大小分块适合处理结构简单的文本，而语义分块则更适合主题跳跃较多的文档。了解每种策略的优缺点，有助于在实际应用中做出更有效的选择。

性能优化的关键参数

建议从512个tokens和10-15%的重叠率开始，结合递归和语义分块进行优化。这些参数能够在保证信息完整性的同时，提高检索效率，适合大多数RAG应用场景。

分块策略的局限性

尽管分块策略能显著提升信息检索效率，但并不存在一种“万能”的方法。复杂格式文档（如PDF、Word）可能需要定制化的分块方案，使用时需谨慎评估其适用性。

❓

延伸问答

什么是RAG中的分块策略？

RAG中的分块策略是将大型文档分割成小片段，以提高信息检索效率的技术。

有哪些主要的分块策略？

主要的分块策略包括固定大小分块、语义分块、递归分块和基于文档的分块等。

固定大小分块的优缺点是什么？

优点是实现简单、处理速度快；缺点是可能破坏语义完整性，适应性差。

语义分块的工作原理是什么？

语义分块根据文本的语义相似度进行分块，确保每个Chunk内部主题高度相关。

如何选择合适的分块策略？

选择分块策略时应根据文档类型和业务需求，通常没有“万能”的方法。

在RAG中，分块的初始参数设置是什么？

建议从512个tokens和10-15%的重叠率开始进行分块。

🏷️