小红花·文摘

本研究提出了HERON框架，通过比较轨迹和决策树训练奖励模型，优化复杂任务中的人类反馈。引入对比偏好学习算法，克服优化挑战，提升策略性能。同时探讨多方强化学习方法，聚合多样化人类偏好，提出自适应偏好损失函数，增强奖励函数灵活性，简化超参数调整。