本研究探讨了在复杂长期决策任务中结合符号规划与变换器策略。通过构建高层符号规划器和低层决策变换器,该框架在不确定的高维环境中生成有效的行动序列,实验结果表明其成功率和策略效率优于纯神经网络方法。
本研究提出了一种基于行动序列的反事实解释方法,旨在满足解释性AI中对多次行动的解释需求。探讨了用户如何在不完整真相等情况下纠正代理模型的行动计划。
完成下面两步后,将自动完成登录并继续当前操作。