迭代数据平滑：在 RLHF 中缓解奖励过拟合和过优化

本研究探讨了来自人类反馈的强化学习（RLHF）技术，通过利用排名数据的奖励模型学习人类价值观，设计了一种称为 “迭代数据平滑”（IDS）的改进奖励学习算法，实证发现该方法表现优于传统方法。

本文提出了解决强化学习困难的方法，包括使用多个奖励模型进行数据评估和投票机制消除数据中的错误和模糊偏好，引入对比学习和元学习增强奖励模型的区分能力和泛化能力，实现迭代优化。