小红花·文摘

最优语料感知训练用于神经机器翻译

Apple Machine Learning Research ·

本研究分析了构建本地大型语言模型（LLMs）的原因，并评估了35种日语和多语言LLMs在19个评估基准上的表现。结果表明，英语文本训练能提高日语评分，而日语特定文本训练则有助于日语知识问答和翻译任务，揭示了日本能力与计算资源的关系。

Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs

BriefGPT - AI 论文速递 ·

本文研究了将最小贝叶斯风险整合到蒸馏训练中的方法，并在翻译任务中验证了其改进效果。同时，对数据效率和容量诅咒进行了详细分析。

通过N-best重排序实现精确的知识蒸馏

Apple Machine Learning Research ·

通过重新制定微调期间的输入，利用预训练模型在新颖的方式下发挥其优势，无需额外收集训练数据或在推理时修改数据，这些简单的数据级别修改方案在单语言对翻译任务或大规模多语言翻译任务中都可以应用，实验证明这些技术在 Flores200 翻译基准测试中实现了显著的性能提升达到 3.5 chrF++。我们希望通过提高微调数据效率的可访问性，使训练更加有效，以达到可扩展改进的最新性能水平。

RIFF: 学习改写输入以便对语言模型进行少样本微调

BriefGPT - AI 论文速递 ·

该文介绍了一种新的微调方法，设计了一种面向翻译任务的先进语言模型的翻译器ALMA，该模型在WMT'21和WMT'22的测试数据集上相比之前的工作和具有7B或13B参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

本研究介绍了WeChat AI在WMT 2021共享新闻翻译任务中的参与，并使用Transformer等多种方法生成大量合成数据，实现了英语到中文、英语到日语、日语到英语和英语到德语的翻译。通过高级微调方法和基于Self-BLEU的模型加强，得到了36.9、46.9、27.8和31.3的BLEU分数。其中英语到中文、英语到日语和日语到英语的BLEU分数最高，英语到德语的BLEU分数是有限制提交中最高的。

VLSP 2022 年 VBD-MT 中越翻译系统

BriefGPT - AI 论文速递 ·

最优语料感知训练用于神经机器翻译

Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs

不要丢弃数据：更好的序列知识蒸馏

通过N-best重排序实现精确的知识蒸馏

RIFF: 学习改写输入以便对语言模型进行少样本微调

语言模型之超级马里奥：从同源模型中吸收能力如午餐一般

VLSP 2022 年 VBD-MT 中越翻译系统