M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
这篇文章介绍了一个大规模的音频视觉动作事件数据集(AVMIT),包含57,177个音频视觉视频的标注结果。通过训练和测试6个递归神经网络(RNNs),发现专门使用音频视觉事件进行训练可以显著提高识别性能。这个新标注的AVMIT数据集将成为研究和比较实验的有价值资源。
🎯
关键要点
- 提供了一个大规模的音频视觉动作事件数据集(AVMIT),包含57,177个音频视觉视频的标注结果。
- 数据集由11名受训者独立评估,并附带预先计算好的音频和视觉特征嵌入。
- 通过训练和测试6个递归神经网络(RNNs),发现专门使用音频视觉事件进行训练显著提高识别性能。
- 新标注的AVMIT数据集将成为研究和比较实验的有价值资源,特别是在音频视觉对应关系的研究中。
➡️