BriefGPT - AI 论文速递 ·

大型语言模型在文学翻译中的真实表现如何？与人类和大型语言模型的文学翻译评估

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

本文探讨了神经机器翻译（NMT）与短语统计机器翻译（PBSMT）在文学翻译中的应用，研究表明NMT在多个评估中优于PBSMT。同时，提出了新的评估方法，并探讨了大型语言模型（LLMs）在翻译质量评估中的潜力，强调了参考翻译的重要性及对传统评估方法的重新审视。

🎯

🔎

研究表明，基于神经机器翻译（NMT）的系统在文学翻译中显著优于短语统计机器翻译（PBSMT）。这种优势不仅体现在自动评估指标上，也得到了人类评估的支持。这提示我们在选择翻译工具时，NMT可能更适合处理复杂的文学文本。

本文提出了一种新的评估方法，结合明示错误分析和MQM框架，旨在提高机器翻译的评估准确性。这种方法的引入可能会改变我们对翻译质量的理解，尤其是在文学作品的翻译中，强调了参考翻译的重要性。

大型语言模型（LLMs）在翻译质量评估中展现出处理专业术语和上下文流畅性的潜力。尽管LLMs在某些情况下仍存在关键性错误，但其在文学翻译中的应用前景值得关注，尤其是在多智能体框架下的表现。

❓

NMT在文学翻译中相对于短语统计机器翻译（PBSMT）显示出显著的优势，自动BLEU评估指标提高了11%，且人类评估结果也支持这一结论。

评估LLMs的翻译质量需要参考翻译、翻译错误和注释指南，且Chain of Thought（CoT）提示技术能显著提升模型表现。

TransAgents框架通过利用多个智能体的能力，模拟传统翻译出版流程，以应对文学作品翻译的复杂需求。

大型语言模型在处理专业术语和上下文流畅性方面显示出潜力，尤其是在法律领域的翻译中表现良好。

文学翻译的复杂语言、比喻表达和文化内涵使得机器翻译面临巨大挑战，仍需进一步研究和改进。

新的评估方法基于明示错误分析和MQM框架，提供了更准确的机器翻译输出评估，尤其在高水平模型的评估中表现突出。

🏷️