本研究构建了M$^{3}$D数据集,解决了多模态信息提取中视频基础和细粒度视觉定位的不足。该数据集支持多种多模态任务,包含英文和中文的文档级文本与视频对。研究表明,提出的分层多模态信息提取模型在处理缺失模态时表现优异。
完成下面两步后,将自动完成登录并继续当前操作。