率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

中科大王杰教授团队提出了一种鲁棒变分贝叶斯推断方法TRACER,旨在解决离线强化学习中的数据损坏问题,显著提升智能体的鲁棒性。相关论文发表于NeurIPS 2024。

🎯

关键要点

  • 中科大王杰教授团队提出鲁棒变分贝叶斯推断方法TRACER,解决离线强化学习中的数据损坏问题。
  • TRACER显著提升智能体的鲁棒性,适用于机器人控制和自动驾驶等领域。
  • 论文作者杨睿为中科大硕博连读生,研究方向包括强化学习和自动驾驶。
  • 离线强化学习面临数据损坏问题,影响智能体在干净环境下的性能。
  • 现有鲁棒离线强化学习方法多集中于特定类型数据损坏,无法有效应对多类数据损坏。
  • TRACER首次将贝叶斯推断引入抗损坏的离线强化学习,捕捉动作价值函数中的不确定性。
  • TRACER通过基于熵的不确定性度量,区分损坏数据和干净数据,减弱损坏数据对训练的影响。
  • 在MuJoCo和CARLA仿真环境中,TRACER在各类数据损坏场景中显著提升智能体鲁棒性。
  • TRACER算法通过最大化后验分布,推导出基于最大化证据下界的损失函数。
  • 实验结果显示,TRACER在所有类型数据损坏中均获得明显性能提升,最高提升幅度达21.1%。
➡️

继续阅读