本研究提出FuxiMT,一种针对低资源环境的多语种机器翻译模型。该模型通过在大型中文语料库上预训练,并在65种语言的平行数据集上微调,展现出优越的翻译能力,尤其在缺乏平行数据时的零-shot翻译表现突出,具有实用潜力。
本研究解决了罗马乌尔都语在数字交流中的标准化和语音变异性问题,创建了一个包含75,146对句子的平行数据集,为机器翻译和多语言教育提供了重要资源。
研究探讨了新加坡英语词性标注的挑战,通过建立平行数据集和设计特定标注方法,提高标注准确度,揭示方言多样性和上下文依赖性对标注的影响。
完成下面两步后,将自动完成登录并继续当前操作。