密报酬的准度量价值函数

📝

内容提要

本研究解决了在目标条件下强化学习中稀疏奖励对样本复杂度的不利影响。我们提出基于密报酬下保持三角不等式的条件,使得密报酬的使用仅能提高样本复杂度,进而促进高效神经网络架构的训练。实验证明,在密报酬设置下训练准度量价值函数的表现优于稀疏奖励的训练。

🏷️

标签

➡️

继续阅读