小红花·文摘

本文研究了强化学习中的模型鲁棒性，提出了分布鲁棒马尔可夫决策过程框架，并分析了不同不确定性集合下的学习策略。通过离线数据，开发了悲观模型算法，以解决模拟与实际环境的差异。提出的Robust Phased Value Learning算法在样本复杂度上表现优越，并探讨了动态规划原理的存在条件，验证了算法的性能和鲁棒性。