面向大型语言模型驱动的无参考翻译评估方法：英语和印度语言

本研究评估大型语言模型对于自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。通过构建一个翻译评估任务，我们进行了零样本学习、上下文示例驱动学习和大型语言模型微调，从而提供了一个 0 到 100 的分数，其中 100 表示完美的翻译，1 表示糟糕的翻译。我们将经过训练的系统与现有方法（如 COMET、BERT-Scorer 和 LABSE）进行比较，发现基于大型语言模型的评估器（LLaMA-2-13B）在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。

本研究评估大型语言模型对自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。发现基于大型语言模型的评估器在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。