PeLLE: 基于开放数据的巴西葡萄牙语编码器语言模型
原文中文,约300字,阅读约需1分钟。发表于: 。该论文介绍了基于 RoBERTa 架构的 PeLLE 模型系列,用于巴西葡萄牙语,使用来自 Carolina 语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节,通过对比大型与精选预训练模型在多个下游任务中的性能,我们评估了 PeLLE 模型。我们得出结论,更大的模型在一些任务中表现更好,但一些任务从使用精选的数据进行预训练中受益。
为促进葡萄牙语的神经编码和数字化时代技术准备,我们开发了一种名为 Albertina PT-* 的基于 Transformer 的编码器,并在欧洲葡萄牙语和巴西葡萄牙语方言的领域设立了最先进的技术水平。我们免费分发 Albertina PT-PT 和 PT-BR 并采用最宽松的许可证,以推动对葡萄牙语言技术的研究和创新。