分布式健壮强化学习与交互式数据采集:基本难题与近似最优算法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究探讨了在源域进行训练并在不同目标域中部署的离线动态强化学习。通过在线分布鲁棒的马尔可夫决策过程,解决了源域转移核不确定性集合中最坏动态下的最优性能问题。通过设计使用总变差距离的不确定性集合,解决了DRMDPs的非线性问题,并引入了DR-LSVI-UCB算法,该算法是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线DRMDP算法。通过数值实验验证了该算法的性能和鲁棒性。
🎯
关键要点
- 研究了在源域进行训练并在不同目标域中部署的离线动态强化学习。
- 通过在线分布鲁棒的马尔可夫决策过程解决源域转移核不确定性集合中的最坏动态下的最优性能问题。
- 设计了使用总变差距离的 $d$-长方形不确定性集合,解决了 DRMDPs 的非线性问题。
- 引入了 DR-LSVI-UCB 算法,这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法。
- 建立了与状态和动作空间大小无关的多项式次优性界限。
- 通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。
➡️