SEM:用于搜索高效的大型语言模型的强化学习

本研究针对大型语言模型(LLMs)在何时调用搜索引擎与何时依赖内部知识的问题进行了探索,现有强化学习方法常导致搜索行为冗余,效率低下。我们提出了SEM,一种新型后训练强化学习框架,通过构建平衡的数据集和结构化推理模板,显著减少冗余搜索操作,同时在多个基准测试中保持或提高回答准确率,提升了模型的推理效率与外部知识的使用能力。

本研究探讨大型语言模型在何种情况下调用搜索引擎与依赖内部知识,提出了一种新型后训练强化学习框架SEM,以减少冗余搜索,提高推理效率和回答准确率。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文