小红花·文摘

本文介绍了一种新的密集视频字幕方法，利用多模态信息描述事件，并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上进行了模型测试。

BriefGPT - AI 论文速递 ·

本文提出了一种新的密集视频字幕方法，利用多模态信息描述事件，并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。

BriefGPT - AI 论文速递 ·