本文介绍了一种名为知识增强文档标签注意网络(KeNet)的新方法,旨在提升多标签文本分类的性能。该方法通过结合文档、知识和标签表示,在多个数据集上超越了现有技术。此外,研究还探讨了多任务学习、标签相关性反馈机制和图注意力网络等技术,以增强标签学习和分类效果。
该研究提出了一个新的多标签文本分类数据集EURLEX,包含57k个法律文档。实验证明,具有标签注意力的BIGRU模型优于其他模型。领域特定的WORD2VEC和ELMO嵌入进一步提高了性能。研究人员发现只考虑文档中的特定区域就足够,并使用fine-tune BERT获得了最佳结果。
该研究评估了多种大规模多标签文本分类方法,发现基于概率标签树的层次分类方法优于基于标签注意力网络的方法。同时,结合Transformer的方法在两个数据集上表现出色,并提出了一种新的最先进的方法,将BERT与LWANs相结合。此外,还提出了一种新模型,利用标签层次结构来改进少量和零-shot学习,并引入了图形感知注释接近度度量。
该研究提出了一个新的数据集EURLEX,用于大规模多标签文本分类。该数据集包含57k个法律文档,注释有4.3k个EUROVOC标签。实验表明,具有标签注意力的BIGRU模型优于其他模型,领域特定的WORD2VEC和上下文敏感的ELMO嵌入进一步提高了性能。研究人员发现,只考虑文档中的特定区域就足够了,并使用fine-tune BERT在所有情况下获得了最佳结果。
完成下面两步后,将自动完成登录并继续当前操作。