合适的模型:法律多标签分类基线的评估
原文中文,约300字,阅读约需1分钟。发表于: 。在这项工作中,我们使用两个公共法律数据集 POSTURE50K 和 EURLEX57K,通过改变训练数据量和标签数量,评估了不同的多标签分类方法,结果显示 DistilRoBERTa 和 LegalBERT 在法律多标签分类中表现良好,而 T5 在生成模型中表现相当,并且 CrossEncoder 在提高宏 F1 分数方面具有潜力,尽管计算成本增加。
该研究提出了一个新的多标签文本分类数据集EURLEX,包含57k个法律文档。实验证明,具有标签注意力的BIGRU模型优于其他模型。领域特定的WORD2VEC和ELMO嵌入进一步提高了性能。研究人员发现只考虑文档中的特定区域就足够,并使用fine-tune BERT获得了最佳结果。