本文介绍了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上进行了模型测试。
本文提出了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。
完成下面两步后,将自动完成登录并继续当前操作。