小红花·文摘

本文研究了基于Wasserstein分布的鲁棒控制策略，提出了可计算的值迭代和策略迭代算法，并构建了多阶段性能保证和最优控制策略。同时，探讨了在不确定性下的强化学习算法改进，以提高机器人动作的鲁棒性。

连续状态空间中的分布可靠随机控制的统计学习

BriefGPT - AI 论文速递 ·

本文研究了线性贝尔曼完备性下的强化学习值迭代算法，提出了一种多项式时间复杂度的算法，解决了大状态空间问题。通过函数逼近和加权最小二乘法，该算法在未知状态转移动态中表现优异，适用于异构线性bandits。此外，研究探讨了离线动态强化学习的性能，提出了DR-LSVI-UCB算法，并验证了其效率和鲁棒性。

基于线性贝尔曼完备性的计算高效强化学习

BriefGPT - AI 论文速递 ·