具有线性结构的稳健离线强化学习与$f$-散度正则化
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本研究提出了一种新的$d$-矩形线性稳健正则化马尔可夫决策过程($d$-RRMDP)框架,旨在解决现有稳健正则化方法在微观不确定性下的过度保守性问题。该框架引入线性潜在结构,并开发了一系列算法(R2PVI),在政策稳健性和计算效率上显著优于传统方法。
🎯
关键要点
- 本研究提出了一种新的$d$-矩形线性稳健正则化马尔可夫决策过程($d$-RRMDP)框架。
- 该框架旨在解决现有稳健正则化方法在微观不确定性下的过度保守性问题。
- 引入线性潜在结构以增强离线强化学习的效果。
- 开发了一系列算法(R2PVI),在政策稳健性和计算效率上显著优于传统方法。
➡️