💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
中科大王杰教授团队提出了一种鲁棒变分贝叶斯推断方法TRACER,旨在解决离线强化学习中的数据损坏问题,显著提升智能体的鲁棒性。相关论文发表于NeurIPS 2024。
🎯
关键要点
- 中科大王杰教授团队提出鲁棒变分贝叶斯推断方法TRACER,解决离线强化学习中的数据损坏问题。
- TRACER显著提升智能体的鲁棒性,适用于机器人控制和自动驾驶等领域。
- 论文作者杨睿为中科大硕博连读生,研究方向包括强化学习和自动驾驶。
- 离线强化学习面临数据损坏问题,影响智能体在干净环境下的性能。
- 现有鲁棒离线强化学习方法多集中于特定类型数据损坏,无法有效应对多类数据损坏。
- TRACER首次将贝叶斯推断引入抗损坏的离线强化学习,捕捉动作价值函数中的不确定性。
- TRACER通过基于熵的不确定性度量,区分损坏数据和干净数据,减弱损坏数据对训练的影响。
- 在MuJoCo和CARLA仿真环境中,TRACER在各类数据损坏场景中显著提升智能体鲁棒性。
- TRACER算法通过最大化后验分布,推导出基于最大化证据下界的损失函数。
- 实验结果显示,TRACER在所有类型数据损坏中均获得明显性能提升,最高提升幅度达21.1%。
➡️