小红花·文摘

本研究通过简单的算法修改，解决了在没有奖励、示范或子目标的情况下，如何从对比强化学习中自发涌现技能和有目的探索的问题。研究发现智能体能够在仅仅通过观察目标状态的情况下，自主学习技能，并在不依赖任何额外参数的情况下有效进行探索。这一发现为理解低资源情况下的智能体学习提供了新视角，具有重要的影响潜力。