小红花·文摘

这篇文章介绍了一个大规模的音频视觉动作事件数据集(AVMIT)，包含57,177个音频视觉视频的标注结果。通过训练和测试6个递归神经网络(RNNs)，发现专门使用音频视觉事件进行训练可以显著提高识别性能。这个新标注的AVMIT数据集将成为研究和比较实验的有价值资源。