本研究解决了大型语言模型在自动评估对话系统时的自我偏好偏差问题,提出了一种新的定量指标。研究发现,GPT-4倾向于选择低困惑度的输出,揭示了大型语言模型对熟悉文本的偏好,具有重要影响。
完成下面两步后,将自动完成登录并继续当前操作。