从图论的角度重新思考强化学习及高阶函数中的信息结构：奖励的概括

强化学习与人类反馈存在的三难问题之一是高度多样化的背景、标签成本低和可靠的对齐性能之间的不兼容性。本文通过设计奖励建模期间的数据集信息结构来缓解这种不兼容性，通过将 RLHF 过程形象化为文本分布上的自动编码过程，研究奖励建模阶段中信息结构的性能影响，提出基于随机图理论的新方法来模拟语义空间中的奖励泛化，并验证了树状奖励模型在三个不同的自然语言处理任务上的优越性。

该研究探讨了利用强化学习从人类反馈中对大型语言模型进行微调的方法，发现强化学习从人类反馈更好地泛化到新的输入，但降低了输出的多样性。研究结果为微调方法提供了指导，并强调了改进泛化和多样性之间的权衡的必要性。

人类反馈函数多样性强化学习微调泛化