本文提出了一种基于状态移动距离的多对多跨语言神经机器翻译模型,能够实现零-shot 翻译。通过移除编码器层中的残差连接,模型在零翻译任务上提升了18.5个BLEU点,同时保持高质量翻译表现。研究表明,该方法在多语言翻译中显著优于传统模型,增强了语言无关性。
本文探讨了通过适应标记器和领域自适应数据选择方法(TextGram)来优化预训练语言模型的性能,特别是在文本分类和跨语言翻译任务中的应用。研究表明,分词设计对大型语言模型(LLMs)至关重要,并提出了相应的优化策略。此外,介绍了开源模型InternLM2在生物医学和计算机科学领域的优越性,表现优于BERT BASE模型。
本文介绍了一个涵盖1.8k种语言的跨语言翻译数据语料库,收集超过450k样例。研究表明,跨语言转移能有效提升资源稀缺语言的翻译质量。通过多语言模型的预训练和微调,模型在低资源语言的语音翻译和手语翻译方面取得显著进展。
完成下面两步后,将自动完成登录并继续当前操作。