小红花·文摘

本论文介绍了一种基于在线强化学习的细粒度反馈方法（RLFH），用于减轻大型语言模型在生成过程中的幻觉行为。实验结果显示，RLFH可以平衡大型语言模型在生成过程中使用内部知识的程度，从而消除幻觉行为。