面向航空视觉与对话导航的目标感知图形感知变压器

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于目标驱动的结构化Transformer规划器(TD-STP),用于长期目标导向和房间布局感知的视觉语言导航任务。该规划器通过分词机制和全局规划的神经注意力架构设计了想象场景,并在R2R和REVERIE基准测试数据集上的测试结果中,成功率分别提高了2%和5%。

🎯

关键要点

  • 提出了一种基于目标驱动的结构化Transformer规划器(TD-STP)
  • 用于长期目标导向和房间布局感知的视觉语言导航任务
  • 设计了想象场景的分词机制
  • 采用结构化的全局规划的神经注意力架构
  • 在R2R和REVERIE基准测试数据集上成功率分别提高了2%和5%
➡️

继续阅读