提高强化学习中的数据效率:基于网格信息传播的新想象力机制
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该文介绍了一种置信度感知的双向离线模型想象算法,通过扩充离线数据集来增强在线学习的推广能力。实验结果表明,该算法显著提高了现有模型无关的线下 RL 算法的性能,并与基线方法相比获得了竞争性或更好的得分。
🎯
关键要点
-
提出了一种置信度感知的双向离线模型想象算法。
-
该算法使用训练好的双向动力学模型和推进策略扩充离线数据集。
-
算法旨在增强在线学习的推广能力。
-
实验结果显示,该算法显著提高了现有模型无关的线下 RL 算法的性能。
-
与基线方法相比,该算法获得了竞争性或更好的得分。
🏷️
标签
➡️