文本输入模态对动作预测效果的研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种多模态预测变压器(MAT)架构,使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性,并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。
🎯
关键要点
-
提出了一种多模态预测变压器(MAT)架构。
-
该架构使用多模态特征和文本字幕预测未来动作。
-
通过实验评估预训练阶段的有效性。
-
模型在所有数据集上展示了优势。
-
文本描述有助于更有效的动作预测。
-
进行了广泛的消融实验以评估文本获取的对象和动作信息的影响。
-
在EpicKitchens-100、EpicKitchens-55和EGTEA GAZE +三个数据集上进行评估。
➡️