该研究提出了一个新的多标签文本分类数据集EURLEX,包含57k个法律文档。实验证明,具有标签注意力的BIGRU模型优于其他模型。领域特定的WORD2VEC和ELMO嵌入进一步提高了性能。研究人员发现只考虑文档中的特定区域就足够,并使用fine-tune BERT获得了最佳结果。
该研究提出了一个新的数据集EURLEX,用于大规模多标签文本分类。该数据集包含57k个法律文档,注释有4.3k个EUROVOC标签。实验表明,具有标签注意力的BIGRU模型优于其他模型,领域特定的WORD2VEC和上下文敏感的ELMO嵌入进一步提高了性能。研究人员发现,只考虑文档中的特定区域就足够了,并使用fine-tune BERT在所有情况下获得了最佳结果。
完成下面两步后,将自动完成登录并继续当前操作。