小红花·文摘

本研究提出了一种评估巴西葡萄牙文语言模型的方法，解决了模型的可解释性问题。开发了基础编码器模型，并提供开放的葡萄牙语数据集，展示了神经翻译系统的优越性。通过单语言预训练，模型在多个葡萄牙语数据集上表现优于多语言模型。此外，研究利用数据增强技术解决金融领域数据稀缺问题，并推出PT-Pump-Up工具以改善资源可访问性。