评估大规模语言模型在古典中文诗歌翻译中的表现:有效性、流畅性和优雅性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大规模语言模型在古典中文诗歌翻译中存在的有效性、流畅性和优雅性不足的问题,提出了一个新的基准。提出的检索增强机器翻译方法(RAT)和基于GPT-4的自动评估指标,能更有效地评估翻译质量,并提升现有模型在此领域的表现。
本文评估了ChatGPT和主流神经机器翻译引擎在中英文翻译方面的能力。研究结果显示,ChatGPT在不同提示下的自动化度量结果类似,而人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著,表明两种评估方法存在差异。这些发现为ChatGPT作为机器翻译工具提供了有价值的见解。