小红花·文摘

本文提出了一种基于偏好的强化学习框架B-Pref，旨在提升算法性能和鲁棒性。研究中引入了半监督奖励学习和动态感知奖励函数等新方法，显著提高了机器人操作任务的反馈效率和策略学习效果。通过利用人类偏好作为反馈，解决了对奖励设计的依赖问题，推动了基于偏好的强化学习在复杂任务中的应用与发展。