该文介绍了一种通过数据策略辅助下的敏感性模型来估计批量强化学习应用中未被观察到的变量的方法。作者基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
完成下面两步后,将自动完成登录并继续当前操作。