本文介绍了一种新的算法,批量主动偏好学习,使用少量数据样本进行奖励函数学习,查询生成时间短。通过实验,结果表明该算法仅需少量计算时间短的查询。算法在学习人类用户喜好的研究中有应用。
完成下面两步后,将自动完成登录并继续当前操作。