小红花·文摘

本研究评估大型语言模型对自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。发现基于大型语言模型的评估器在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。