本研究提出了一种新方法(Q操控),通过操控Q函数提高学习代理在适应目标奖励函数时的效率,尤其在存在多个先验行为的情况下。实验证明,该方法显著提升了样本复杂性并优化了返回策略。
完成下面两步后,将自动完成登录并继续当前操作。