本研究探讨了在复杂长期决策任务中结合符号规划与变换器策略。通过构建高层符号规划器和低层决策变换器,该框架在不确定的高维环境中生成有效的行动序列,实验结果表明其成功率和策略效率优于纯神经网络方法。
本研究提出了一种基于行动序列的反事实解释方法,旨在满足解释性AI中对多次行动的解释需求。探讨了用户如何在不完整真相等情况下纠正代理模型的行动计划。
我们开发了PlausiVL,一个视频语言模型,通过反事实学习和行动重复损失来研究行动序列的可行性。模型利用时态逻辑和动词-名词约束生成不可信的行动序列,以区分可行与不可行的序列。在Ego4D和EPIC-Kitchens-100数据集上的评估显示,该方法在行动预测任务中有显著提升。
完成下面两步后,将自动完成登录并继续当前操作。