小红花·文摘

该研究探讨了在未知的随机马尔可夫环境或游戏中代理人示范学习的问题。通过扩展逆强化学习方法，估计代理人的偏好并构建改进策略。通过简化概率模型处理演示者策略和效用，使用最大后验估计来解决凸优化问题。该算法在先验分布相同的情况下与其他了解动态的逆强化学习方法相比具有竞争力。