RbRL2.0:基于评级的强化学习中的奖励与策略学习的综合方法
📝
内容提要
本研究解决了现有强化学习方法无法区分不同表现水平的信息利用不足的问题。提出了一种新颖的方法,通过对不同评级的经验进行区分和加权,来指导策略更新。这一方法通过优化综合奖励和策略损失函数,显著提高了收敛速度和整体性能,尤其在较低表现水平的惩罚上表现尤为突出。
🏷️
标签
➡️