小红花·文摘

本研究提出CULL-MT方法，通过结构层剪枝和选择语言方向，解决多语言机器翻译模型推理开销增加的问题。该方法采用贪婪策略识别不重要层，并通过知识蒸馏和参数微调减轻影响。研究表明，NLLB-3.3B模型在多方向翻译中表现鲁棒，而LLaMA3.1-8B-Instruct对层剪枝更敏感。

CULL-MT: A Compression Method for Machine Translation Based on Language and Layer Pruning

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在多语言机器翻译中的能力，尤其是在低资源语言的表现。研究表明，参考信息能显著提高翻译评估的准确性，而源语言信息有时会产生负面影响。此外，提出了基于GPT的翻译质量评估指标GEMBA，显示出在多语言评估中的优越性能，为提升LLMs在翻译任务中的应用提供了新思路。

面向大型语言模型驱动的无参考翻译评估方法：英语和印度语言

BriefGPT - AI 论文速递 ·

本文探讨了 Transformer 网络在算法任务中的应用，提出了一种概率框架以优化多语言机器翻译性能，解决了梯度消失问题。研究表明，深层模型在语言建模中表现更佳，并分析了多头注意力层的记忆能力及其对目标函数的影响。此外，研究揭示了 Transformer 的关键参数对表达能力的作用，并提出了有效的模型调整方法。

变换器在不同深度下能学到什么？对序列学习任务的案例研究

BriefGPT - AI 论文速递 ·

本文研究了深度随机初始化的Transformer模型中的信号传播与梯度反向传播，提出了确保可训练性的初始化超参数必要条件。通过理论分析和实验，提出了优化模型性能的建议，解决了深度模型训练不稳定性的问题，并在多语言机器翻译任务中取得了更好的性能。

Transformer 稳定了：一种端到端的信号传播理论用于语言模型

BriefGPT - AI 论文速递 ·

本文研究了自监督学习方法在多语言机器翻译中的应用。通过结合噪声消除的自监督任务和原有任务，性能在8种和15种语言基准测试中分别提高了11.3％和3.7％。

通过从资源丰富的语言进行自我蒸馏以增强大型语言模型的多语种能力

BriefGPT - AI 论文速递 ·

多语言机器翻译质量低，英文内容通过机器翻译转译成较低资源语言。研究对训练多语言大型语言模型提出疑虑。

网络中机器翻译的惊人数量：多样并行的洞察

BriefGPT - AI 论文速递 ·