该论文研究了在线性函数逼近模型下上下文马尔可夫决策过程(CMDPs)的性质和算法,并证明了其在样本复杂度方面的优越性。比较结果显示,上下文变化的特征在线性CMDPs中具有更好的样本效率。
完成下面两步后,将自动完成登录并继续当前操作。