本论文介绍了一种基于在线强化学习的细粒度反馈方法(RLFH),用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示,RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度,从而消除幻觉行为。
完成下面两步后,将自动完成登录并继续当前操作。