无模型强化学习中的新兴规划解读 本研究首次提供了无模型强化学习智能体能够进行规划的机制性证据,填补了相关领域的研究空白。通过对一个基于概念的可解释性方法的应用,我们展示了无模型智能体如何利用学习到的概念表示内部形成计划,从而预测行为对环境的长期影响并影响行动选择。我们的发现为理解智能体内部规划行为的机制提供了重要进展,具有推动新兴规划与推理能力研究的潜在影响。 本研究首次提供无模型强化学习智能体规划的机制性证据,展示其利用概念表示形成计划并预测行为的长期影响,推动相关研究进展。 强化学习 无模型强化学习 智能体 概念表示 规划 长期影响