尝试引导:增强强化学习的LLM检索
原文中文,约500字,阅读约需1分钟。发表于: 。本文解决了大型语言模型(LLMs)在处理复杂或间接主题时难以提出有效搜索查询的问题。提出了一种名为“尝试学习检索”(LeReT)的强化学习框架,通过探索搜索查询并进行基于偏好的优化,提高了查询质量。研究表明,该方法可以将检索精度提高最多29%,对下游生成器的评估提升17%,展示了其在改进LLM管道中的潜力。
大型语言模型在数学和推理测试中表现良好,但在简单逻辑问题上仍存在困难。新基准测试SearchBench包含11种搜索问题,发现即使是最先进的模型如GPT-4也仅解决了1.4%的问题。通过A*算法和多阶段方法,GPT-4的解决率提升至57%以上。