本文探讨了利用因果图增强目标条件强化学习的方法,提出了一个结合因果发现、模型转换和策略训练的优化框架,以提升代理的推理和泛化能力。同时,研究介绍了新的内在奖励方法“因果好奇心”,通过自我监督学习发现环境因果关系,并在多项任务中验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。