本研究提出了一种对比抽象学习方法,通过聚类减少状态数量,解决强化学习在长轨迹中处理大量状态的问题。该方法结合对比学习和现代霍普菲尔德网络,有效识别抽象状态,不依赖奖励,为多种任务提供高效解决方案。
完成下面两步后,将自动完成登录并继续当前操作。