小红花·文摘

本研究探讨了受监控的马尔可夫决策过程（Mon-MDPs）中不可观察奖励的问题。通过函数逼近方法，智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断，提出了一种基于奖励不确定性的谨慎策略优化方法。