💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
搜索增强的大型语言模型在知识密集型任务中表现优异,但常因过度搜索导致计算效率低下和幻觉现象。研究表明,搜索能提高可回答查询的准确性,但对不可回答的查询则有负面影响。过度搜索在复杂推理和多轮对话中尤为明显。我们提出了“每个正确性令牌”(TPC)作为评估指标,并发布了OverSearchQA基准以推动相关研究。
🎯
关键要点
- 搜索增强的大型语言模型在知识密集型任务中表现优异。
- 过度搜索会导致计算效率低下和幻觉现象。
- 搜索能提高可回答查询的准确性,但对不可回答的查询有负面影响。
- 过度搜索在复杂推理模型和多轮对话中尤为明显。
- 引入“每个正确性令牌”(TPC)作为评估指标。
- 发布OverSearchQA基准以推动相关研究。
- 检索证据的组成对结果至关重要,负面证据的存在能改善放弃率。
- 研究了在查询和检索层面的缓解方法。
🏷️
标签
➡️