针对未剪辑视频的短期 Transformer 动作检测的调整

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的多模态转换器网络,用于检测未修剪视频中的动作。该网络利用多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出了一种算法来纠正相机运动引起的动态变形。实验证明,该方法在多个基准测试上优于现有方法,并在新教育活动数据集上进行了比较实验。

🎯

关键要点

  • 提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作。
  • 利用多模态注意机制计算不同空间和动态模态组合之间的相关性。
  • 提出了一种算法来纠正相机运动引起的动态变形。
  • 该方法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法。
  • 在新教育活动数据集上进行了比较实验,该数据集包括小学的课堂视频。
➡️

继续阅读