M$^{3}$D: A Multimodal, Multilingual, and Multitask Dataset for Document-level Information Extraction

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究构建了M$^{3}$D数据集,解决了多模态信息提取中视频基础和细粒度视觉定位的不足。该数据集支持多种多模态任务,包含英文和中文的文档级文本与视频对。研究表明,提出的分层多模态信息提取模型在处理缺失模态时表现优异。

🎯

关键要点

  • 本研究构建了M$^{3}$D数据集,解决了多模态信息提取中视频基础和细粒度视觉定位的不足。

  • M$^{3}$D数据集包含英文和中文的文档级文本与视频对,支持多种多模态任务。

  • 研究表明,提出的分层多模态信息提取模型在处理缺失模态时表现优异。

🏷️

标签

➡️

继续阅读