小红花·文摘

本研究提出了一种双重主动奖励学习算法，通过选择对话和教师提升数据质量，结合悲观强化学习和自适应选择策略，理论上证明了奖励估计器的推广方差最小。实验显示该算法优于现有技术。