DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于最大因果熵的学习策略,利用代理的演示进行学习,并证明了其在表格设置中的收敛性。该方法已经在各种任务和环境中表现优于现有技术,能够处理具有随机动态和连续状态动作空间的问题。