面向鲁棒缺失模态的多模态视频段落字幕生成模型

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的密集视频字幕方法,利用多模态信息描述事件,并使用自动语音识别系统获取音频和语音模态的文本描述。作者在ActivityNet Captions数据集上测试了模型。

🎯

关键要点

  • 提出了一种新的密集视频字幕方法。
  • 该方法利用多模态信息描述事件。
  • 使用自动语音识别系统获取音频和语音模态的文本描述。
  • 将音频和语音模态视为单独的输入,与视频帧和音轨一起使用。
  • 利用Transformer体系结构将多模态输入数据转换为文本描述。
  • 在ActivityNet Captions数据集上测试了模型,并进行了深入分析。
➡️

继续阅读