本研究通过简单的算法修改,解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。研究发现智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。这一发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。
完成下面两步后,将自动完成登录并继续当前操作。