强化学习在数据集重置策略优化中的应用

通过借用重置的概念，利用离线偏好数据集提供的信息状态，我们提出了一种具有可证明保证性的新型 RLHF 算法 DR-PO，该算法将离线偏好数据集集成到在线策略训练过程中，并通过数据集重置来优化策略优化器，以获得比 PPO 和 DPO 更好的生成性能，实验证明 DR-PO 在 GPT4 胜率指标下表现优秀。

强化学习数据集