跨多个视频数据集的动作类关系检测和分类

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过使用相关的语言和视觉信息,提出了一个统一的模型来预测动作类别之间的关系。实验结果表明,预训练的最新神经网络模型对于文本和视频具有很高的预测性能。基于动作标签文本的关系预测比基于视频更准确。通过结合两种模态的预测可以进一步提高预测性能。

🎯

关键要点

  • 提出了一个统一的模型来预测动作类别之间的关系
  • 预训练的最新神经网络模型对于文本和视频具有很高的预测性能
  • 基于动作标签文本的关系预测比基于视频更准确
  • 结合两种模态的预测可以进一步提高预测性能
➡️

继续阅读