小红花·文摘

本文研究了熵作为内在奖励在强化学习中的效果，特别是在软性演员-评论家（SAC）方法中。研究表明，熵奖励应谨慎使用，建议将其归一化为零或从策略评估中删除，以提升性能和鲁棒性。通过多项实验，提出的改进方法在多个控制任务中表现优越。