该文章介绍了决策感知的联合目标,用于训练演员和评论家,并解决了目标不匹配的问题。作者提出了通用的Actor-critic算法,并通过简单的赌博机示例证明了评论家目标的好处。实验证明了决策感知的Actor-critic框架的好处。
完成下面两步后,将自动完成登录并继续当前操作。