分布鲁棒离线强化学习的上下界

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们研究了在源域训练并在目标域部署的离线动态强化学习。通过在线分布鲁棒的马尔可夫决策过程,设计了一个基于总变差距离的不确定性集合,解决非线性问题。提出的DR-LSVI-UCB算法在离线动态强化学习中高效逼近,并与状态和动作空间大小无关,具有多项式次优性界限。数值实验验证了算法的性能和鲁棒性。

🎯

关键要点

  • 研究离线动态强化学习在源域训练和目标域部署的应用。
  • 通过在线分布鲁棒的马尔可夫决策过程解决源域转移核不确定性问题。
  • 设计使用总变差距离的$d$-长方形不确定性集合,解决非线性问题。
  • 提出DR-LSVI-UCB算法,具有可验证的高效性和多项式次优性界限。
  • 算法性能和鲁棒性通过数值实验得到验证。
➡️

继续阅读