在强化学习中塑造稀疏奖励:一种半监督方法

📝

内容提要

本研究针对强化学习中奖励信号稀疏这一问题,通过结合半监督学习技术和新颖的数据增强方法,从大多数过渡中学习轨迹空间表示,从而改善奖励塑造的有效性。实验结果表明,该方法在稀疏奖励场景下的表现显著优于基于好奇心的方法,最高得分提高了四倍,并且使用的双重熵数据增强方法相比其他方法将最高得分提升了15.8%。

🏷️

标签

➡️

继续阅读