本研究提出了一种新颖性引导样本重用(NSR)方法,旨在解决强化学习中样本利用不均的问题。该方法通过对稀有新颖状态进行额外更新,跳过频繁状态,从而显著提高了算法的收敛率和成功率,同时未显著增加时间消耗。
完成下面两步后,将自动完成登录并继续当前操作。