这篇文章介绍了一个大规模的音频视觉动作事件数据集(AVMIT),包含57,177个音频视觉视频的标注结果。通过训练和测试6个递归神经网络(RNNs),发现专门使用音频视觉事件进行训练可以显著提高识别性能。这个新标注的AVMIT数据集将成为研究和比较实验的有价值资源。
完成下面两步后,将自动完成登录并继续当前操作。