小红花·文摘

本研究提出了一种新颖的架构，通过优先记忆模块在无监督下发现重要的长尾轨迹，解决了传统强化学习算法在处理Zipfian分布时的不足，从而提高样本效率并显著提升性能。该方法可集成至任意强化学习架构，优于传统方法。