本文研究了多方强化学习与人类反馈的方法,探讨了多个个体的多样化偏好,并提出了引入元学习和不同的社会福利函数来聚合多方偏好的方式。研究结果表明,多方强化学习与传统单方强化学习在样本复杂度上存在差异,并凸显了多方强化学习的统计复杂性要求。
完成下面两步后,将自动完成登录并继续当前操作。