本研究提出了一种无奖励的主动人类参与方法——代理价值传播,旨在解决强化学习中人类干预不足的问题。实验结果表明,该方法在多种控制任务中表现优异,能够有效模拟人类行为。
完成下面两步后,将自动完成登录并继续当前操作。