面向任务个性化的多模态少样本学习在视觉丰富的文档实体检索中的应用
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种收集海量、嘈杂、弱标注数据的方法,以弥补 VDER 设置中训练数据不足的缺陷,并提出了名为 DocuNet 的数据集。借助 DocuNet,提出了一种轻量级多模态体系结构 UniFormer,从文本、布局和图像裁剪中学习统一的表征。实验结果表明,将这个大规模数据集与 UniFormer 相结合可以在传统实体检索和少样本学习设置中取得改进。
🎯
关键要点
-
提出了一种从网络上收集海量、嘈杂、弱标注数据的方法。
-
该方法旨在弥补许多 VDER 设置中训练数据不足的缺陷。
-
介绍了一个名为 DocuNet 的收集数据集,适用于各种 VDER 任务。
-
DocuNet 不依赖特定文档类型或实体集。
-
提出了一种轻量级多模态体系结构 UniFormer。
-
UniFormer 从文本、布局和图像裁剪中学习统一的表征,无需额外的视觉相关性。
-
实验结果表明,DocuNet 与 UniFormer 结合可在传统实体检索和少样本学习中取得改进。
🏷️