M$^{3}$D:一个多模态、多语言和多任务的文档级信息提取数据集
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究构建了M$^{3}$D数据集,解决了视频基础和细粒度视觉定位中的多模态信息提取不足。提出的分层模型在处理缺失模态时表现优异,为后续研究提供了基准。
🎯
关键要点
- 本研究构建了M$^{3}$D数据集,解决了视频基础和细粒度视觉定位中的多模态信息提取不足。
- M$^{3}$D数据集包含英文和中文的文档级文本与视频对,支持多种多模态信息提取任务。
- 提出的分层多模态信息提取模型在处理缺失模态时表现优异。
- 该研究为后续研究提供了合理的基准。
➡️