本研究提出了一种新的$d$-矩形线性稳健正则化马尔可夫决策过程($d$-RRMDP)框架,旨在解决现有稳健正则化方法在微观不确定性下的过度保守性问题。该框架引入线性潜在结构,并开发了一系列算法(R2PVI),在政策稳健性和计算效率上显著优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。