学习演示(LfD)是一种有效的训练系统的方法,通过教师代理的演示来让学生代理学习。研究人员提出了一种教师-学生学习框架,通过改进教师代理引起环境反应的同时,最小化学生代理对演示的惊喜来适应两者之间的差异。他们通过在稀疏奖励环境中的控制任务中展示学生的学习改进来验证了这种方法。
完成下面两步后,将自动完成登录并继续当前操作。