小红花·文摘

本研究构建了M$^{3}$D数据集，解决了多模态信息提取中视频基础和细粒度视觉定位的不足。该数据集支持多种多模态任务，包含英文和中文的文档级文本与视频对。研究表明，提出的分层多模态信息提取模型在处理缺失模态时表现优异。