MultiLS-SP/CA:加泰罗尼亚语和西班牙语的词汇复杂性预测和词汇简化资源
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用 MultiLS-SP/CA 数据集,本研究描述了自动词汇简化的任务,此数据集为西班牙语和加泰罗尼亚语提供了一种新的方法,首次包含西班牙语的词汇理解困难度的定量评分,并将此数据集的实验结果作为未来工作的基准。
我们提出了一种基于无监督学习的词汇简化方法,使用单语数据和预训练语言模型。实验结果显示,我们的模型在英语、葡萄牙语和西班牙语上优于其他无监督系统,并与GPT-3.5模型组合形成最先进模型。在SWORDS词汇替换数据集上评估,获得最先进结果。