本研究构建了M$^{3}$D数据集,解决了多模态信息提取中视频基础和细粒度视觉定位的不足。该数据集支持多种多模态任务,包含英文和中文的文档级文本与视频对。研究表明,提出的分层多模态信息提取模型在处理缺失模态时表现优异。
该文介绍了一种多模态问答框架,将多模态信息提取任务统一为一个流水线,提高了各种类型的现成大型多模态模型在 MIE 任务上的性能。该框架能够使 LMM 在更大的语言模型竞争中获得更好的表现,成为解决 MIE 和其他下游多模态任务的一般原则。
完成下面两步后,将自动完成登录并继续当前操作。