本研究探讨了受监控的马尔可夫决策过程(Mon-MDPs)中不可观察奖励的问题。通过函数逼近方法,智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断,提出了一种基于奖励不确定性的谨慎策略优化方法。
完成下面两步后,将自动完成登录并继续当前操作。