LEGAL-UQA:一个低资源的乌尔都语-英语法律问答数据集
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了LEGAL-UQA,这是首个来源于巴基斯坦宪法的乌尔都语法律问答数据集,包含619对问题-答案及其对应的法律条款,填补了低资源语言领域特定NLP资源的空缺。通过OCR提取、人工精细化和GPT-4辅助翻译的创新过程,我们的实验表明,Claude-3.5-Sonnet在数据集上达到了99.19%的准确率,展示了多语言模型在专业领域中的适应挑战。
团队SCaLAR在《SemEval-2024任务5》中提出了一种无监督方法,通过相似度和距离生成标签,解决法律论证的二元分类问题。结合CNN、GRU、LSTM和Legal-Bert嵌入,处理法律文本复杂性。引入基于T5的分段摘要,提升模型性能。无监督系统在开发集和测试集上分别提高了20和10个百分点,显示了其有效性。