本文探讨了双语词典在多语言预训练模型中的应用,强调通过合成文本和标注数据提升19种欠发达语言的性能。研究评估了ChatGPT在37种语言中的表现,发现其在多语言任务中的效果较差,需进一步研究。还分析了大型语言模型在语言多样性和推理效率方面的挑战,并提出了改进方法和未来研究方向。
本研究提出了NLIP Lab的多语言翻译系统,通过预训练和对齐一致性目标,结合双语词典和高质量种子数据微调语言模型,提升了印地语翻译效果。评测显示该模型具有竞争力。
完成下面两步后,将自动完成登录并继续当前操作。