大型语言模型在文学翻译中的真实表现如何?与人类和大型语言模型的文学翻译评估
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了文学翻译评价的不足,通过引入LITEVAL-CORPUS,一个包含经过验证的人类翻译和9个机器翻译系统输出的段落级平行语料库。研究发现,传统的多维质量度量(MQM)在文学翻译中不够有效,而人类翻译在评估中明显优于大型语言模型的翻译,尤其是最新的LLM(如GPT-4)表现更佳。
近期机器翻译的进展提升了翻译质量,但文学作品翻译仍面临挑战。本文介绍了名为TransAgents的多智能体框架,通过模拟传统翻译流程,结合单语种人类偏好和双语LLM偏好两种评估策略,研究表明TransAgents在特定领域的翻译效果优于人工参考翻译,展示了其优势与局限性。