本研究提出了一种无奖励的主动人类参与方法——代理价值传播,旨在解决强化学习中人类干预不足的问题。实验结果表明,该方法在多种控制任务中表现优异,能够有效模拟人类行为。
该研究提出了一种新型非对抗性逆强化学习算法,解决了传统方法的高计算成本和不稳定性问题。通过后继特征与奖励向量的内积实现回报的线性分解,能够与现有算法结合,并在多个控制任务中表现出色。
学习演示(LfD)是一种有效的训练系统的方法,通过教师代理的演示来让学生代理学习。研究人员提出了一种教师-学生学习框架,通过改进教师代理引起环境反应的同时,最小化学生代理对演示的惊喜来适应两者之间的差异。他们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证了这种方法。
通过27小时行走数据训练全尺寸仿人机器人,在旧金山自由行走。研究将仿人控制视为标记预测问题,通过传感器运动轨迹的自回归预测训练模型。结果表明,模型能在现实世界中泛化,并执行未见过的指令。研究为学习真实世界控制任务提供了前景广阔的道路。
完成下面两步后,将自动完成登录并继续当前操作。