小红花·文摘

该文介绍了一种基于最大因果熵的学习策略，利用代理的演示进行学习，并证明了其在表格设置中的收敛性。该方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。