M2Doc:文档版面分析的可插拔多模态融合方法
原文中文,约2600字,阅读约需7分钟。发表于: 。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
本文介绍了一种可插拔的多模态融合方法M2Doc,用于文档版面分析任务。M2Doc包含两个融合模块,可以将文本和视觉特征融合。实验结果显示使用M2Doc的目标检测器在版面分析数据集上取得了显著提升。该方法在复杂逻辑版面分析场景中能感知文本内容和语义。未来的研究方向包括设计统一高效的多模态模型和更有效的多模态融合策略。