基于注意力的稀疏和延迟奖励塑造

📝

内容提要

本研究解决了稀疏和延迟奖励函数对强化学习应用造成的挑战,提出了一种新的注意力机制算法ARES,通过使用变压器的注意力机制生成塑造奖励,从而为任何环境创建稠密奖励函数。实验表明,ARES显著改善了延迟奖励场景中的学习,能够在数据量不足或低质量数据的情况下有效进行训练。

➡️

继续阅读