小红花·文摘

该研究提出了一个新的多标签文本分类数据集EURLEX，包含57k个法律文档。实验证明，具有标签注意力的BIGRU模型优于其他模型。领域特定的WORD2VEC和ELMO嵌入进一步提高了性能。研究人员发现只考虑文档中的特定区域就足够，并使用fine-tune BERT获得了最佳结果。

合适的模型：法律多标签分类基线的评估

BriefGPT - AI 论文速递 ·

该研究提出了一个新的数据集EURLEX，用于大规模多标签文本分类。该数据集包含57k个法律文档，注释有4.3k个EUROVOC标签。实验表明，具有标签注意力的BIGRU模型优于其他模型，领域特定的WORD2VEC和上下文敏感的ELMO嵌入进一步提高了性能。研究人员发现，只考虑文档中的特定区域就足够了，并使用fine-tune BERT在所有情况下获得了最佳结果。

多标签文本分类中用平衡更新和集体损失替代数据注释

BriefGPT - AI 论文速递 ·