DAViD:基于合成见解的领域自适应视觉丰富文档理解
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了从视觉丰富文档中提取信息的高成本问题,尤其是在面对格式不一致和领域特异性要求时。提出的DAViD框架利用机器生成的合成数据进行领域适应,结合细粒度和粗粒度的文档表示学习,通过合成注释减少了对昂贵人工标注的依赖。实验结果表明,DAViD在最小标注数据集上也能实现竞争性的性能,表明其在领域特定VRDU任务中的高效适应能力。
本文研究结合大型预训练语言模型和图神经网络来编码视觉和文本信息,通过未标记数据进行无监督微调。在发票和简历数据集上,发票的F1值提高了6.3%,简历提高了4.7%。在少样本情况下,所需标注数据比基线少30倍即可达到约90%的F1性能。