AI系统与用户兴趣相协调需要理解和融入人类的价值观和偏好。OPEN框架利用贝叶斯最优实验设计指导选择信息丰富的问题,并利用语言模型提取特征和转化为自然语言问题。OPEN在偏好获取方面优于现有的方法。
本文提出了一种利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法。算法在每次迭代中最大化获取函数,选择提供最多信息的状态-动作对进行查询,从而获得高效的数据驱动强化学习方法。在多个连续控制问题上的实验中,相比于基于模型或无模型的RL基线方法,本文方法学习出的最优策略所需样本量减少了5-1000倍。
完成下面两步后,将自动完成登录并继续当前操作。