小红花·文摘

本研究提出了一种新方法（Q操控），通过操控Q函数提高学习代理在适应目标奖励函数时的效率，尤其在存在多个先验行为的情况下。实验证明，该方法显著提升了样本复杂性并优化了返回策略。