小红花·文摘

本文介绍了一种新型概率反向最优控制算法，旨在优化从有限演示中推断奖励函数的能力。研究通过逆强化学习和深度潜在变量模型，解决了奖励函数的非可辨识性问题，并提出了DRASRL框架，显著提高了奖励估计的准确性。