M$^{3}$D:一个多模态、多语言和多任务的文档级信息提取数据集

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究构建了M$^{3}$D数据集,解决了视频基础和细粒度视觉定位中的多模态信息提取不足。提出的分层模型在处理缺失模态时表现优异,为后续研究提供了基准。

🎯

关键要点

  • 本研究构建了M$^{3}$D数据集,解决了视频基础和细粒度视觉定位中的多模态信息提取不足。
  • M$^{3}$D数据集包含英文和中文的文档级文本与视频对,支持多种多模态信息提取任务。
  • 提出的分层多模态信息提取模型在处理缺失模态时表现优异。
  • 该研究为后续研究提供了合理的基准。
➡️

继续阅读