本研究提出了一种新颖的架构,通过优先记忆模块在无监督下发现重要的长尾轨迹,解决了传统强化学习算法在处理Zipfian分布时的不足,从而提高样本效率并显著提升性能。该方法可集成至任意强化学习架构,优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。