当前文献关注文学小说中引文归属问题,研究了人物识别、指代消解、引文辨别和说话人归属四个子任务。通过评估最先进的模型在大量注释了核心指代和引文的文学小说数据集上,发现一个简单的连续预测模型在说话人归属任务上具有与最先进模型相当的准确性分数。
介绍了一个包含100部英文小说的新数据集,其中包含29,103个指代注释和210,532个标记。文档长度平均为2,105.3个单词,是其他基准数据集的四倍长。数据集还包含了难度指代问题的示例,可用于评估指代消解任务的跨领域性能和分析长距离文档内指代的特征。
中间任务包括中文分词、词性标注、NER、句法分析、指代消解、语义Parser等,一般作为解决实际需求任务的中间或辅助阶段。最终任务包括文本分类、文本相似性计算、机器翻译、文本摘要等,能直接呈现给用户。
完成下面两步后,将自动完成登录并继续当前操作。