BriefGPT - AI 论文速递 ·

MQM-Chat：聊天翻译的多维质量指标

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本研究探讨机器翻译质量评估的挑战，提出基于MQM框架的评估方法，并应用于多个语言对的翻译输出。研究发现，自动评估指标在某些情况下优于人工评估，且情感文本翻译存在显著问题。通过引入新的评估技术和数据集，旨在提升机器翻译的准确性和可靠性，强调多维质量指标的重要性。

🎯

❓

MQM框架是一种用于评估机器翻译质量的多维指标体系，旨在通过分析翻译错误来提高翻译的准确性和可靠性。

自动评估指标在某些情况下优于人工评估，尤其是在高水平机器翻译模型的输出中，能够提供更快速和一致的评估结果。

情感文本翻译存在显著问题，约50%的机器翻译输出未能保留原始情感，常见原因包括情感承载词和语言现象的翻译错误。

可以通过专注于错误标签、融合多个度量标准以及设计明确的评估策略来构建更好的机器翻译度量标准。

Context-MQM是一种新的评估度量方法，结合上下文信息来提高翻译质量评估的相关性，尤其在无参考情境下表现良好。

MQM-Chat指标主要关注聊天翻译中的风格化内容和对话一致性，强调这些因素在翻译质量评估中的重要性。

🏷️