小红花·文摘

该文章介绍了决策感知的联合目标，用于训练演员和评论家，并解决了目标不匹配的问题。作者提出了通用的Actor-critic算法，并通过简单的赌博机示例证明了评论家目标的好处。实验证明了决策感知的Actor-critic框架的好处。