小红花·文摘

本文探讨了利用因果图增强目标条件强化学习的方法，提出了一个结合因果发现、模型转换和策略训练的优化框架，以提升代理的推理和泛化能力。同时，研究介绍了新的内在奖励方法“因果好奇心”，通过自我监督学习发现环境因果关系，并在多项任务中验证了其有效性。