小红花·文摘

本文提出了一种利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法。算法在每次迭代中最大化获取函数，选择提供最多信息的状态-动作对进行查询，从而获得高效的数据驱动强化学习方法。在多个连续控制问题上的实验中，相比于基于模型或无模型的RL基线方法，本文方法学习出的最优策略所需样本量减少了5-1000倍。