本文介绍了一种使用弱监督来自动区分任务子空间和无意义任务空间的方法,实现高效探索和捕捉状态间距离的表示形式。在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。
本文提出了一种利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法。算法在每次迭代中最大化获取函数,选择提供最多信息的状态-动作对进行查询,从而获得高效的数据驱动强化学习方法。在多个连续控制问题上的实验中,相比于基于模型或无模型的RL基线方法,本文方法学习出的最优策略所需样本量减少了5-1000倍。
完成下面两步后,将自动完成登录并继续当前操作。