多标签文本分类中用平衡更新和集体损失替代数据注释
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一个新的数据集EURLEX,用于大规模多标签文本分类。该数据集包含57k个法律文档,注释有4.3k个EUROVOC标签。实验表明,具有标签注意力的BIGRU模型优于其他模型,领域特定的WORD2VEC和上下文敏感的ELMO嵌入进一步提高了性能。研究人员发现,只考虑文档中的特定区域就足够了,并使用fine-tune BERT在所有情况下获得了最佳结果。
🎯
关键要点
- 该研究提出了一个新的数据集EURLEX,用于大规模多标签文本分类。
- EURLEX数据集包含57k个法律文档,注释有4.3k个EUROVOC标签。
- 实验表明,具有标签注意力的BIGRU模型优于其他模型。
- 领域特定的WORD2VEC和上下文敏感的ELMO嵌入进一步提高了性能。
- 研究人员发现,只考虑文档中的特定区域就足够了。
- 使用fine-tune BERT在所有情况下获得了最佳结果,规避了BERT的最大文本长度限制。
➡️