使用特定的预训练任务提高商业文件信息提取
原文中文,约400字,阅读约需1分钟。发表于: 。在这篇论文中,我们使用了一种预先训练在商业文件集合上的语言模型 LayoutLM,并引入了两个新的预训练任务,进一步提高其提取相关信息的能力。第一个任务旨在更好地理解文档的复杂布局,第二个任务侧重于数字值及其数量级。通过这些任务,模型可以学习到更好上下文化的扫描文档表示。我们还引入了一种新的后处理算法,用于解码信息提取中的 BIESO...
该论文介绍了使用预训练的语言模型LayoutLM提取商业文件信息的方法。通过引入新的预训练任务和后处理算法,模型可以更好地理解文档布局和数字值。实验结果表明,该方法显著提高了对支出收据、发票和采购订单的提取性能。