本文研究了强化学习中的模型鲁棒性,提出了分布鲁棒马尔可夫决策过程框架,并分析了不同不确定性集合下的学习策略。通过离线数据,开发了悲观模型算法,以解决模拟与实际环境的差异。提出的Robust Phased Value Learning算法在样本复杂度上表现优越,并探讨了动态规划原理的存在条件,验证了算法的性能和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。