M2Doc:文档版面分析的可插拔多模态融合方法

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

本文介绍了一种可插拔的多模态融合方法M2Doc,用于文档版面分析任务。M2Doc包含两个融合模块,可以将文本和视觉特征融合。实验结果显示使用M2Doc的目标检测器在版面分析数据集上取得了显著提升。该方法在复杂逻辑版面分析场景中能感知文本内容和语义。未来的研究方向包括设计统一高效的多模态模型和更有效的多模态融合策略。

🎯

关键要点

  • 本文介绍了一种可插拔的多模态融合方法M2Doc,用于文档版面分析任务。
  • M2Doc包含两个融合模块:Early-Fusion和Late-Fusion,能够将文本和视觉特征融合。
  • 实验结果显示,使用M2Doc的目标检测器在DocLayNet和M6Doc数据集上取得了显著提升。
  • 版面分析任务的检测目标主要是文本区域,使用多模态建模方法更符合任务特点。
  • 现有的文档版面分析方法多基于通用目标检测器,复杂逻辑版面分析场景表现不佳。
  • M2Doc框架包括文本表征、特征提取、Early-Fusion和Late-Fusion四个阶段。
  • 文本Grid表征阶段使用OCR结果和BERT生成单词的特征表示。
  • 特征提取阶段使用ResNet提取文本和视觉特征。
  • Early-Fusion阶段使用类似Gate的机制融合特征,Late-Fusion阶段进行候选框的二次融合。
  • 实验结果表明,M2Doc在多个数据集上取得了SOTA结果,证明了其有效性和可插拔性。
  • 未来研究方向包括设计统一高效的多模态模型和更有效的多模态融合策略。
➡️

继续阅读