本文研究了基于Wasserstein分布的鲁棒控制策略,提出了可计算的值迭代和策略迭代算法,并构建了多阶段性能保证和最优控制策略。同时,探讨了在不确定性下的强化学习算法改进,以提高机器人动作的鲁棒性。
本文研究了线性贝尔曼完备性下的强化学习值迭代算法,提出了一种多项式时间复杂度的算法,解决了大状态空间问题。通过函数逼近和加权最小二乘法,该算法在未知状态转移动态中表现优异,适用于异构线性bandits。此外,研究探讨了离线动态强化学习的性能,提出了DR-LSVI-UCB算法,并验证了其效率和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。