VRDSynth:多语言语义富文本提取程序合成
原文中文,约400字,阅读约需1分钟。发表于: 。VRDSynth 是一种程序合成方法,可以在多语言的视觉文档中自动提取实体关系,无需预训练数据。通过捕捉 VRD 领域的复杂性,使用特定领域语言(DSL)描述合成程序的空间和文本关系。VRDSynth 在语义实体链接方面,在 FUNSD 和 XFUND 基准上的表现超过预训练模型,并且具有较小的内存占用和相似的时间效率。
3D-VLP是一种将3D场景与自然语言联系起来的预训练模型,通过构建SynVL3D克服了场景多样性和细粒度注释不足的障碍,创建了一个包含10K个场景和1M个描述的合成场景文本语料库。利用SynVL3D的注释,预训练了一个Transformer模型,并提出了自适应方法解决领域转移问题。在视觉定位、密集字幕和问答等任务中取得了最新成果。