本研究提出CULL-MT方法,通过结构层剪枝和选择语言方向,解决多语言机器翻译模型推理开销增加的问题。该方法采用贪婪策略识别不重要层,并通过知识蒸馏和参数微调减轻影响。研究表明,NLLB-3.3B模型在多方向翻译中表现鲁棒,而LLaMA3.1-8B-Instruct对层剪枝更敏感。
本文探讨了大型语言模型(LLMs)在多语言机器翻译中的能力,尤其是在低资源语言的表现。研究表明,参考信息能显著提高翻译评估的准确性,而源语言信息有时会产生负面影响。此外,提出了基于GPT的翻译质量评估指标GEMBA,显示出在多语言评估中的优越性能,为提升LLMs在翻译任务中的应用提供了新思路。
本文探讨了 Transformer 网络在算法任务中的应用,提出了一种概率框架以优化多语言机器翻译性能,解决了梯度消失问题。研究表明,深层模型在语言建模中表现更佳,并分析了多头注意力层的记忆能力及其对目标函数的影响。此外,研究揭示了 Transformer 的关键参数对表达能力的作用,并提出了有效的模型调整方法。
本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播,提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验,提出了优化模型性能的建议,解决了深度模型训练不稳定性的问题,并在多语言机器翻译任务中取得了更好的性能。
本文研究了自监督学习方法在多语言机器翻译中的应用。通过结合噪声消除的自监督任务和原有任务,性能在8种和15种语言基准测试中分别提高了11.3%和3.7%。
多语言机器翻译质量低,英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。
完成下面两步后,将自动完成登录并继续当前操作。