我们提出了一种多模态预测变压器(MAT)架构,使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性,并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。
完成下面两步后,将自动完成登录并继续当前操作。