小红花·文摘

本文比较了ChatGPT和主流神经机器翻译引擎在中文外交文本翻译方面的能力。研究结果显示，自动化度量和人工评估者对ChatGPT的评分相似，但人工评估者更倾向于给ChatGPT较高的评分。自动化度量与人工评估维度之间的相关性结果弱且不显著，表明了两种评估方法之间的差异。这些发现为ChatGPT作为机器翻译工具以及提示工程对其性能的影响提供了有价值的见解。