亚马逊AWS官方博客 ·

LLM 微调实践 – 利用大语言模型微调进行翻译质量检测（上）

💡 原文中文，约14500字，阅读约需35分钟。

📝

内容提要

大语言模型在翻译方面优于传统机器翻译，但仍存在拒绝翻译、语种混杂和冗余词汇等问题。为提高翻译质量，可以优化提示、进行多轮检测和建立后检查机制。模型训练应关注数据、训练方法和模型选择，以提升检出率和精准率。

🎯

关键要点

大语言模型在翻译方面优于传统机器翻译，但仍存在拒绝翻译、语种混杂和冗余词汇等问题。
拒绝翻译主要针对敏感内容，语种夹杂和冗余词汇是常见的翻译错误。
为提高翻译质量，可以优化提示、进行多轮检测和建立后检查机制。
模型训练应关注数据、训练方法和模型选择，以提升检出率和精准率。
优化提示可以改善翻译质量，但效果有限，多轮检测和后检查机制适用于高质量要求的场景。
在成本和延迟敏感的情况下，需满足高检出率和低误检率的业务目标。
模型效果优化应从数据、训练方法和模型选择三个维度进行。
数据准备需包含翻译错误实例，并进行均衡采样以提高模型的学习效果。
通过微调模型和合成数据，可以提高翻译质量检测的准确性。
在模型选型上，较小的模型如Qwen2.5-1.5B在性价比上表现良好。
训练方式上，Full Finetune通常优于Lora Finetune，但Lora的训练门槛较低。
总结了LLM翻译质量提高的重要性，并提出了构建翻译质检模型的思路。

🔎

延伸解读

大语言模型的翻译优势与局限

大语言模型在翻译中展现出比传统机器翻译更自然流畅的语言能力，但仍面临拒绝翻译、语种混杂等问题。这些局限性主要源于模型训练时的随机性和对敏感内容的处理。因此，在实际应用中，用户需权衡模型的优势与局限，选择合适的场景进行使用。

翻译质量提升的策略

为了提高翻译质量，文章提出了优化提示、进行多轮检测和建立后检查机制等策略。尤其是在对翻译质量要求高的场景中，多轮检测虽然能显著改善结果，但也会增加成本和延迟。因此，选择合适的优化策略需结合具体业务需求。

模型训练的关键因素

模型训练的效果受数据、训练方法和模型选择等多方面因素影响。数据的质量和多样性是决定性因素，尤其是包含翻译错误实例的均衡采样。此外，Full Finetune通常优于Lora Finetune，选择合适的训练方式对于提升模型性能至关重要。

成本与性能的权衡

在翻译质量检测中，成本和延迟是重要考量。对于大规模翻译任务，使用较小的模型如Qwen2.5-1.5B可以在保持合理性能的同时降低成本。用户在选择模型时，应根据具体的业务目标和资源限制进行综合评估，以实现最佳的性价比。

❓

延伸问答

大语言模型在翻译中存在哪些常见问题？

大语言模型在翻译中常见问题包括拒绝翻译、语种夹杂、冗余词汇、拼写/语法错误、数量/量词/单位错误和格式变化等。

如何提高大语言模型的翻译质量？

可以通过优化提示、进行多轮检测和建立后检查机制来提高大语言模型的翻译质量。

在翻译质量检测中，模型训练应关注哪些方面？

模型训练应关注数据、训练方法和模型选择，以提升检出率和精准率。

拒绝翻译的原因是什么？

拒绝翻译主要是针对敏感内容，如情色或暴力等，模型会选择不翻译并道歉。

在成本和延迟敏感的情况下，翻译质量检测的目标是什么？

目标是实现高检出率（90%以上）和低误检率（不超过20%），同时控制成本和延迟。

微调模型和合成数据如何提高翻译质量检测的准确性？

通过微调模型和合成数据，可以更好地学习和识别翻译中的错误特征，从而提高检测的准确性。

🏷️