文本输入模态对动作预测效果的研究

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种多模态预测变压器(MAT)架构,使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性,并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。

🎯

关键要点

  • 提出了一种多模态预测变压器(MAT)架构。

  • 该架构使用多模态特征和文本字幕预测未来动作。

  • 通过实验评估预训练阶段的有效性。

  • 模型在所有数据集上展示了优势。

  • 文本描述有助于更有效的动作预测。

  • 进行了广泛的消融实验以评估文本获取的对象和动作信息的影响。

  • 在EpicKitchens-100、EpicKitchens-55和EGTEA GAZE +三个数据集上进行评估。

➡️

继续阅读