本研究提出了一种基于模型的方法,通过扩展安全探索方法ATACOM,结合可学习的约束,确保长期安全性并处理不确定性。实验结果显示,该方法在最终性能上与当前最先进的方法持平或更优,同时在训练过程中保持更安全的行为。
最新研究发现,使用解耦的物体表示可以提高基于图像的物体中心强化学习任务的策略学习效果。一种新颖的物体中心强化学习算法结合了演员-评论家和基于模型的方法,有效地利用这些表示。该算法在视觉复杂的三维机器人环境和具有组合结构的二维环境中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。