本研究提出了一种名为IKEA的自适应搜索代理,旨在提高大型语言模型的检索效率。该代理通过内部知识优先和创新的奖励函数,减少外部检索频率,从而提升准确性和推理能力。
本研究探讨大型语言模型在何种情况下调用搜索引擎与依赖内部知识,提出了一种新型后训练强化学习框架SEM,以减少冗余搜索,提高推理效率和回答准确率。
指令遵循对大型语言模型(LLMs)的AI代理至关重要,但LLMs常常难以遵循简单指令。研究发现,LLMs的内部状态与指令遵循的成功率相关,提出了“内部知识”概念。分析表明,输入嵌入空间中的“指令遵循维度”可以预测响应是否符合指令,调整该维度可提高遵循成功率而不影响响应质量。这项研究为LLMs的指令遵循提供了新的见解。
本论文介绍了一种基于在线强化学习的细粒度反馈方法(RLFH),用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示,RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度,从而消除幻觉行为。
大型语言模型在生成能力方面表现出色,但当仅依赖内部知识时容易出现幻觉。基于检索的大型语言模型成为将其与外部知识结合的潜在解决方案。当前领域缺乏对异构知识源上的大型语言模型进行有效定位的实际基准数据集。我们提出了一个综合数据集,解决了推理挑战,并展示了我们的模型优于以往方法。
完成下面两步后,将自动完成登录并继续当前操作。