小红花·文摘

本研究探讨了稀疏奖励环境下强化学习的探索问题，比较了四种内在奖励策略。结果表明，状态计数在低维观察中表现最佳，但在RGB观察中性能下降，而最大熵策略则更具鲁棒性，为提升探索性能提供了新依据。