该研究提出了一种新型非对抗性逆强化学习算法,解决了传统方法的高计算成本和不稳定性问题。通过后继特征与奖励向量的内积实现回报的线性分解,能够与现有算法结合,并在多个控制任务中表现出色。
该文介绍了一种新的变分方法,用于学习私有和/或公平的表示。该方法可以在最小化保留信息的同时控制效用与隐私或公平平衡的相似之处和可行性。
完成下面两步后,将自动完成登录并继续当前操作。