本研究提出了一种新方法NSR,通过对稀有状态进行额外更新,跳过频繁状态,解决了强化学习中样本利用不均的问题。实验表明,NSR提高了算法的收敛率和成功率,且时间消耗无明显增加。
完成下面两步后,将自动完成登录并继续当前操作。