本研究探讨了稀疏奖励环境下强化学习的探索问题,比较了四种内在奖励策略。结果表明,状态计数在低维观察中表现最佳,但在RGB观察中性能下降,而最大熵策略则更具鲁棒性,为提升探索性能提供了新依据。
完成下面两步后,将自动完成登录并继续当前操作。