蝈蝈俊 ·

LLM上下文长度变大后，RAG的拆分块大小是否可以增大？ - 蝈蝈俊

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

RAG在精准性、实时性和成本方面仍具优势。尽管LLM支持超长上下文，RAG的块大小应保持在128-512个tokens，以提高检索精度和回答质量。研究表明，较小的块能更好地聚焦相关信息，适合大多数应用。建议用户根据任务特性进行实验。

🎯

❓

RAG的块大小应保持在128到512个tokens之间。

较小的块能更好地聚焦相关信息，提高检索的相关性和回答质量。

较大块可能导致嵌入向量失去针对性，从而降低检索质量。

块大小选择应考虑检索精度、嵌入模型限制和LLM性能等因素。

Nvidia的研究发现，使用128 tokens的块能显著提高回答质量，尤其在长上下文场景下。

行业最佳实践建议从128到1024 tokens的范围开始实验，以适应不同的任务需求。

🏷️

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
AI对话开发需要自建吗?还是选开源好
在AI对话系统开发中，选择自建还是开源框架需综合考虑成本、周期和团队能力。自建系统提供完全掌控，但成本高、周期长；开源框架启动快，但灵活性受限。理想选择是...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...