小红花·文摘

本文介绍了离线强化学习在真实世界应用中的重要性，并解决了离线到在线微调的困境。通过采用贝叶斯设计原则，智能体可以根据对最优策略的信念采取行动，避免性能突然下降，并找到最优策略。提出的新算法在基准测试中展示了有效性，为离线到在线RL提供了新的视角，使离线数据的学习更加有效。