小红花·文摘

本文介绍了一种多模态神经网络，通过结合OCR提取的文本和图像信息进行文献图像分类，准确率提高了3%。研究提出了多种深度学习模型，包括基于DocParser的OCR-free信息提取模型和SDL-Net结构化文档分析模型，这些模型在不同数据集上均取得了先进成果，显著提升了文档图像的处理和理解能力。