BriefGPT - AI 论文速递 ·

Serafim PT * 编码器家族的葡萄牙句子嵌入

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文提出了多种葡萄牙语神经编码模型，特别是基于RoBERTa架构的PeLLE模型系列，利用开放数据进行训练，并评估其在多个任务中的表现。同时，开发了支持欧洲和巴西葡萄牙语的Albertina PT-*编码器，推动语言技术研究。此外，研究探讨了无标注数据集的构建方法及其在多语言任务中的应用。

🎯

❓

PeLLE模型系列基于RoBERTa架构，使用来自Carolina语料库的开放数据进行训练，旨在提升巴西葡萄牙语的神经编码能力。

Albertina PT-*编码器旨在推动欧洲和巴西葡萄牙语的语言技术研究，提供高效的编码器模型供研究和商业使用。

研究提出了一种使用双语文本语料的构建方法，通过fine-tune Transformer语言模型来实现，无需人工标注。

PeLLE模型在多个下游任务中表现良好，研究表明更大的模型在某些任务中表现更佳，而精选数据的预训练也有助于提升性能。

句子嵌入迁移学习通常优于单词级别的迁移，并能在少量监督训练数据下实现良好表现。

本文提出了多种神经编码模型，开发了Albertina PT-*编码器，并分享了无标注数据集构建方法，推动了葡萄牙语语言技术的研究与创新。

🏷️