搜索增强的大型语言模型(LLMs)在知识密集型任务中表现优异,但常出现过度搜索现象,导致计算效率低下和引入不相关信息。研究表明,搜索通常提高可回答查询的准确性,但对不可回答的查询则有害。过度搜索在复杂推理模型中更为明显,且在多轮对话中加剧。为量化过度搜索,提出了“每个正确性代币”(TPC)评估指标,并探讨了减轻过度搜索的方法。
完成下面两步后,将自动完成登录并继续当前操作。