解锁科学:跨模态科学信息提取的新型数据集和基准
原文中文,约500字,阅读约需2分钟。发表于: 。从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时...
科学信息提取(SciIE)研究发布了多个新系统和基准,提出了一个半监督的流程来弥补数据可用性差距并实现跨模态信息提取。该流程为科学界提供了高质量的基准、大型语料库和半监督的注释流程。新数据集、结果和分析验证了半监督流程的有效性和效率。