高效端到端视觉文档理解与根据聚类

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究信息提取问题,使用预训练语言模型和图神经网络相结合的模型编码视觉和文本信息,并通过无监督微调改善性能。实验证明该方法在发票和简历数据集上的性能优于基线方法。

🎯

关键要点

  • 本文研究信息提取问题,结合预训练语言模型和图神经网络。
  • 模型高效编码视觉和文本信息,引入新的微调目标。
  • 使用大量未标记的领域内数据改善无监督微调性能。
  • 在发票数据集上,所提出的方法的绝对 F1 比强文本基线高出 6.3%。
  • 在简历数据集上,F1 绝对值增加了 4.7%。
  • 在少数样本情况下,该方法需要比基线少 30 倍的批注数据,仍能达到约 90% 的 F1 性能水平。
➡️

继续阅读