机器之心 ·

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

中科大王杰教授团队提出了一种鲁棒变分贝叶斯推断方法TRACER，旨在解决离线强化学习中的数据损坏问题，显著提升智能体的鲁棒性。相关论文发表于NeurIPS 2024。

🎯

🔎

在机器人控制和自动驾驶等领域，智能体的鲁棒性至关重要。TRACER方法通过有效应对多类数据损坏，提升了智能体在真实环境中的表现，确保其在面对不确定性时仍能做出可靠决策。这一进展为实际应用提供了更强的保障，尤其是在复杂和动态的环境中。

TRACER首次将贝叶斯推断引入离线强化学习，利用不确定性度量来区分损坏数据和干净数据。这一创新不仅提升了算法的鲁棒性，也为未来的研究提供了新的思路，可能推动更多领域的智能决策技术发展。

TRACER在MuJoCo和CARLA仿真环境中的实验结果显示，面对多类数据损坏时，性能提升幅度最高可达21.1%。这一数据表明，针对数据损坏的鲁棒性研究具有重要的实际意义，未来的研究可以进一步探索不同类型损坏对智能体性能的影响。

❓

TRACER首次将贝叶斯推断引入抗损坏的离线强化学习，能够有效捕捉动作价值函数中的不确定性。

TRACER通过基于熵的不确定性度量，区分损坏数据和干净数据，减弱损坏数据对训练的影响，从而提升鲁棒性。

TRACER适用于机器人控制和自动驾驶等领域。

在MuJoCo和CARLA仿真环境中，TRACER在各类数据损坏场景中显著提升智能体鲁棒性，最高提升幅度达21.1%。

离线强化学习面临传感器故障、恶意攻击等导致的随机噪声和数据扰动，影响智能体性能。

TRACER通过最大化后验分布，推导出基于最大化证据下界的损失函数。

🏷️