该论文介绍了开普敦大学在WMT22竞赛中提交的多语种翻译模型,支持英语与8种南部/东南部非洲语言的翻译。研究采用多种低资源机器翻译技术,结果表明这些技术在缺乏双语数据时效果显著。
该研究引入了广泛的资源套件,旨在弥合其他语言的模型建设进展受限于资源稀缺的差距。通过手动验证数据、未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据。通过解决毒性对齐问题,生成了非有毒响应。希望该研究能推动 Indic LLMs 的研究和开发,并为其他语言建立一个开源蓝图。
完成下面两步后,将自动完成登录并继续当前操作。