该研究提出了一种基于乐观策略优化的方法(OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,优化自主代理的学习效果,在表格任务上取得了优于现有方法的结果。
完成下面两步后,将自动完成登录并继续当前操作。