该文提出了一种名为ANPG的学习算法,用于解决无限时间折扣奖励马尔可夫决策过程问题。该算法能够在一般参数化情况下实现O(ε^-2)的样本复杂度和O(ε^-1)的迭代复杂度,相比现有技术改进了样本复杂度。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: