序贯行为引发的不变表示在强化学习中的应用
原文中文,约300字,阅读约需1分钟。发表于: 。通过序列动作导致不变表示法(SAR)方法,针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题,本文提出了一种能抵抗干扰的表示学习方法,通过编码器优化学习从而仅保留顺序动作控制信号后的组件,使得智能体能够学习到鲁棒的表示形式,并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。
该研究利用表示学习加速深度强化学习,学习出能够仅编码任务相关信息的健壮潜在表示,并在可视化 MuJoCo 任务中证明了其成功去除任务无关信息且达到了先进技术的表现。该方法还测试了第一人称高速公路驾驶任务,学习了对云、天气和时间的不变性,并提供了泛化结果和与因果推断的联系。