强化学习在数据集重置策略优化中的应用

通过借用重置的概念,利用离线偏好数据集提供的信息状态,我们提出了一种具有可证明保证性的新型 RLHF 算法 DR-PO,该算法将离线偏好数据集集成到在线策略训练过程中,并通过数据集重置来优化策略优化器,以获得比 PPO 和 DPO 更好的生成性能,实验证明 DR-PO 在 GPT4 胜率指标下表现优秀。

相关推荐 去reddit讨论