本文介绍了最优语料感知训练(OCAT),该方法通过微调预训练模型提升模型准确性。在翻译任务中,OCAT相较于传统训练提高了3.6和1.8的chrF分数,且具有轻量、不易过拟合和强适应性等优点。
本研究分析了构建本地大型语言模型(LLMs)的原因,并评估了35种日语和多语言LLMs在19个评估基准上的表现。结果表明,英语文本训练能提高日语评分,而日语特定文本训练则有助于日语知识问答和翻译任务,揭示了日本能力与计算资源的关系。
本文研究了将最小贝叶斯风险整合到蒸馏训练中的方法,并在翻译任务中验证了其改进效果。同时,对数据效率和容量诅咒进行了详细分析。
本研究提出了一种利用n-best reranking来增强序列级知识蒸馏的方法,通过从前n个最佳假设中提取学生模型训练数据的伪标签,并利用多样化的模型集合选择最高质量的假设作为标签。实验证明该方法在翻译任务上有效,最好的学生模型在参数较少的情况下达到了与大型翻译模型相当的准确性。
通过重新制定微调期间的输入,利用预训练模型在新颖的方式下发挥其优势,无需额外收集训练数据或在推理时修改数据,这些简单的数据级别修改方案在单语言对翻译任务或大规模多语言翻译任务中都可以应用,实验证明这些技术在 Flores200 翻译基准测试中实现了显著的性能提升达到 3.5 chrF++。我们希望通过提高微调数据效率的可访问性,使训练更加有效,以达到可扩展改进的最新性能水平。
该文介绍了一种新的微调方法,设计了一种面向翻译任务的先进语言模型的翻译器ALMA,该模型在WMT'21和WMT'22的测试数据集上相比之前的工作和具有7B或13B参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
本研究介绍了WeChat AI在WMT 2021共享新闻翻译任务中的参与,并使用Transformer等多种方法生成大量合成数据,实现了英语到中文、英语到日语、日语到英语和英语到德语的翻译。通过高级微调方法和基于Self-BLEU的模型加强,得到了36.9、46.9、27.8和31.3的BLEU分数。其中英语到中文、英语到日语和日语到英语的BLEU分数最高,英语到德语的BLEU分数是有限制提交中最高的。
完成下面两步后,将自动完成登录并继续当前操作。