小红花·文摘

本文探讨了离线强化学习中的偏好学习方法，提出了新算法OPPO和PRDC，旨在优化策略并解决偏好不一致问题。研究表明，这些方法在多目标设置中有效提升学习性能，并在不同数据集上取得优异结果。