通过布局结构建模增强视觉丰富文档的理解

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究信息提取问题,使用预训练语言模型和图神经网络相结合的模型编码视觉和文本信息,通过无监督微调改善性能。实验证明该方法在发票和简历数据集上的绝对F1值分别提高了6.3%和4.7%。在少样本情况下,相同性能需要比基线少30倍的批注数据。

🎯

关键要点

  • 本文研究信息提取问题,结合预训练语言模型和图神经网络。
  • 通过无监督微调改善性能,引入新的微调目标。
  • 在发票数据集上,绝对F1值提高了6.3%。
  • 在简历数据集上,绝对F1值提高了4.7%。
  • 在少样本情况下,所需的批注数据比基线少30倍。
➡️

继续阅读