该论文在NeurIPS 2022的“人机协作学习研讨会”上被接受。偏好强化学习算法通过人类反馈提炼奖励函数,但仍需大量标签,实用性不足。本文展示了环境编码的有效性。
完成下面两步后,将自动完成登录并继续当前操作。