本文介绍了一种新型概率反向最优控制算法,旨在优化从有限演示中推断奖励函数的能力。研究通过逆强化学习和深度潜在变量模型,解决了奖励函数的非可辨识性问题,并提出了DRASRL框架,显著提高了奖励估计的准确性。
完成下面两步后,将自动完成登录并继续当前操作。