小红花·文摘

本文介绍了一种新的算法，批量主动偏好学习，使用少量数据样本进行奖励函数学习，查询生成时间短。通过实验，结果表明该算法仅需少量计算时间短的查询。算法在学习人类用户喜好的研究中有应用。