基于 BERT 的阿拉伯语事件 - 参数提取语料库与建模
内容提要
本文介绍了一种文档级神经事件关系抽取模型,利用事件模板和新构建的数据集WikiEvents,展示了在事件论证抽取中的优异性能。同时,研究探讨了阿拉伯语命名实体识别、问答方法和事件链接等领域的进展,提出了多种模型和方法以提高抽取的准确性和一致性。
关键要点
-
提出了一种文档级神经事件关系抽取模型,使用事件模板和新构建的数据集WikiEvents。
-
模型在事件论证抽取方面表现优异,展示了零样本事件提取框架的可移植性。
-
构建了阿拉伯嵌套命名实体识别语料库Wojood,包含550K个标记和21种实体类型。
-
提出了一种问答方法,通过生成型Transformer和数据增强策略提高事件抽取的准确性。
-
使用注意力图探针框架,发现BERT模型对事件参数的探测能力良好,尤其在跨句子事件参数上表现突出。
-
提出了具有AMR-guided交互模块的TSAR模型,取得了跨句子事件论元抽取的显著进展。
-
探讨了阿拉伯语新闻中的断言验证和观点预测,开发了机器学习基线模型并取得了良好F1得分。
-
介绍了EventGraph框架,通过将事件编码为图形来解决事件提取问题,取得了显著改善。
-
提出了一种关注事件参数的事件链接方法,在处理知识库内外的事件提及时取得了显著改进。
-
提出了一种基于事件关系的一致性约束机制,提升了文档级事件参与者角色提取模型的一致性。
延伸问答
什么是WikiEvents数据集,它的主要特点是什么?
WikiEvents是一个新的文档级事件抽取数据集,包含完整事件和共指注释,旨在提高事件论证抽取的性能。
阿拉伯嵌套命名实体识别语料库Wojood的规模和内容是什么?
Wojood包含约550K个标记,手动注释了21种实体类型,包括人物、组织、地点等,且支持嵌套实体注释。
文档级神经事件关系抽取模型的主要创新点是什么?
该模型采用条件生成过程和事件模板,展示了在事件论证抽取中的优异性能和零样本事件提取的可移植性。
如何提高事件抽取的准确性?
通过使用生成型Transformer、数据增强策略和迁移学习,可以显著提高事件抽取的准确性。
TSAR模型在事件论元抽取方面取得了什么进展?
TSAR模型通过AMR-guided交互模块和双流编码,显著提升了跨句子事件论元抽取的性能。
EventGraph框架是如何解决事件提取问题的?
EventGraph通过将事件编码为图形,将触发事件和参数表示为语义图形中的节点,从而解决事件提取问题。