本研究评估了开放权重语言模型在立陶宛语、拉脱维亚语和爱沙尼亚语的本地化能力。尽管Gemma~2模型表现良好,但许多多语言模型在翻译准确性上仍存在挑战,误差率高达每20个词中有1个错误。
本研究探讨了多语言模型在爱沙尼亚语中的适应性。调整词汇后,重训练词汇器降低了命名实体识别性能,但删除未使用标记未产生负面影响,反而提升了模型效率。
本文介绍了两种三语BERT模型的训练,分别适用于芬兰语、爱沙尼亚语和英语,以及克罗地亚语、斯洛文尼亚语和英语。这些模型在多个下游任务中表现优异,特别是在命名实体识别和依存句法分析方面。研究还探讨了如何在有限计算预算下有效转移英文预训练模型到其他语言,以及多语言数据对低资源语言模型性能的影响。
完成下面两步后,将自动完成登录并继续当前操作。