PRE: 基于同行评审的大型语言模型评估器

原文约300字，阅读约需1分钟。发表于：。

通过同行评审机制，我们提出了一种能够自动评估大型语言模型的新框架，用于解决评估成本高、泛化能力低以及评估中的偏见等问题。我们在文本摘要任务上进行了广泛实验，结果表明使用单一语言模型评估存在偏见，并证明了我们的同行评审机制的有效性。

本文讨论了使用大型语言模型（LLMs）评估文本质量的方法，研究发现自动思维链（CoT）并不总是与人类评分一致，强制LLMs仅输出数字评分也不理想，要求LLMs解释其自身评分可以改善与人类评分的相关性。