本研究提出了一种名为“Actor-Mimic”的多任务学习和迁移学习方法,通过深度强化学习和模型压缩技术来训练一个单一的策略网络,并通过多个专家教师的指导来学习在不同任务中的行为,并使用先前的知识解决新任务。研究结果表明,该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题,为了说明其效果,我们在Atari游戏上进行了测试。
完成下面两步后,将自动完成登录并继续当前操作。