本文提出了一种基于注意力机制的体系结构来模拟未修剪视频中动作类之间的关系,并通过分支建模依赖性,提出了新的度量标准,并在数据集上展示了更好的性能。
通过使用相关的语言和视觉信息,提出了一个统一的模型来预测动作类别之间的关系。实验结果表明,预训练的最新神经网络模型对于文本和视频具有很高的预测性能。基于动作标签文本的关系预测比基于视频更准确。通过结合两种模态的预测可以进一步提高预测性能。
完成下面两步后,将自动完成登录并继续当前操作。