小红花·文摘

通过重新制定微调期间的输入，利用预训练模型在新颖的方式下发挥其优势，无需额外收集训练数据或在推理时修改数据，这些简单的数据级别修改方案在单语言对翻译任务或大规模多语言翻译任务中都可以应用，实验证明这些技术在 Flores200 翻译基准测试中实现了显著的性能提升达到 3.5 chrF++。我们希望通过提高微调数据效率的可访问性，使训练更加有效，以达到可扩展改进的最新性能水平。