本文介绍了一种基于目标驱动的结构化Transformer规划器(TD-STP),用于长期目标导向和房间布局感知的视觉语言导航任务。该规划器通过分词机制和全局规划的神经注意力架构设计了想象场景,并在R2R和REVERIE基准测试数据集上的测试结果中,成功率分别提高了2%和5%。
完成下面两步后,将自动完成登录并继续当前操作。