LLM 微调实践 – 利用大语言模型微调进行翻译质量检测(下)

LLM 微调实践 – 利用大语言模型微调进行翻译质量检测(下)

💡 原文中文,约10800字,阅读约需26分钟。
📝

内容提要

本文探讨了翻译质量检测模型的微调过程,强调数据不平衡对模型性能的影响。通过分析错误类型和优化COT序列,提出了多任务微调策略,以提高模型的检出率和精准率。增加训练数据的数量和质量显著提升了模型在复杂任务中的表现。

🎯

关键要点

  • 翻译质量检测模型的微调过程受到数据不平衡的影响。
  • 真实生产数据包含多种错误类型,分布不均匀,某些错误业务上敏感。
  • 通过均衡采样,筛选出3.6k训练集和669条测试集,但检出率下降至71.15%。
  • COT序列的开头不能暴露结论,导致模型偏向输出固定开头。
  • 通过引导词增加COT多样性,但效果未显著提升。
  • 多任务微调策略可以提高模型在不同错误类型上的表现。
  • 训练数据量和质量对模型性能提升至关重要,尤其是复杂任务。
  • 采用投票机制筛选COT样本,显著提升了困难任务的检出率和精准率。
  • DPO训练方法未达预期,模型出现复读机现象。
  • 训练超参数的调整对模型效果有影响,特别是梯度累积的设置。
  • Model Hub和Dify工具提升了模型微调和部署的效率。
  • 未来优化方向包括精简COT分析过程和尝试更小的模型。
➡️

继续阅读