本研究提出了一种新方法SMOSE,旨在解决连续控制任务中的可解释性问题。通过结合多个可解释决策者和路由器,SMOSE提高了解释的便利性,并在多个基准环境中超越现有的可解释基线,缩小了与非可解释算法的差距。
本文研究了基于好奇心的强化学习,首次在54个基准环境中进行大规模实验,结果显示其表现良好且与手工设计奖励高度一致。研究还发现,随机特征足以计算预测误差,但在新关卡中学习特征表现更佳。此外,预测奖励在随机环境中存在局限性。
完成下面两步后,将自动完成登录并继续当前操作。