小红花·文摘 - 小红花技术领袖俱乐部

本文讨论了使用大型语言模型（LLMs）评估文本质量的方法，研究发现自动思维链（CoT）并不总是与人类评分一致，强制LLMs仅输出数字评分也不理想，要求LLMs解释其自身评分可以改善与人类评分的相关性。

PRE: 基于同行评审的大型语言模型评估器

BriefGPT - AI 论文速递 ·

本文研究了使用大型语言模型（LLMs）评估文本质量的方法，发现自动思维链（CoT）并不总是与人类评分一致。强制LLMs仅输出数字评分也不理想。要求LLMs解释其自身评分可以改善与人类评分的相关性。这项研究对最新技术的相关性有推动作用。

批次评价：走向人类化文本评价

BriefGPT - AI 论文速递 ·

本文研究了使用大型语言模型（LLMs）评估文本质量的方法，发现自动思维链（CoT）并不总是与人类评分一致。强制LLMs仅输出数字评分也不理想。要求LLMs解释其自身评分可以改善与人类评分的相关性。该研究对最新技术的相关性有推动作用。

LLM 作为自恋评估者：当自我膨胀影响评分

BriefGPT - AI 论文速递 ·

本文讨论了使用LLMs评估文本质量的两种方法：LLM评估和G-Eval。研究发现，G-Eval中使用的自动思维链并不总是使G-Eval与人类评分更加一致。同时，强制LLM仅输出数字评分是不理想的。要求LLM解释其自身评分会持续改善ChatGPT与人类评分之间的相关性。

大规模语言模型在自动评估中的深入研究

BriefGPT - AI 论文速递 ·