小红花·文摘

本文介绍了一种可插拔的多模态融合方法M2Doc，用于文档版面分析任务。M2Doc包含两个融合模块，可以将文本和视觉特征融合。实验结果显示使用M2Doc的目标检测器在版面分析数据集上取得了显著提升。该方法在复杂逻辑版面分析场景中能感知文本内容和语义。未来的研究方向包括设计统一高效的多模态模型和更有效的多模态融合策略。