HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排名的相关性，我们支持了 HRE 的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了 HRE 与人类判断相关，并且在指导调整后对模型变化特别敏感。

研究人员提出了一种新的自动评估任务HumanRankEval（HRE），通过对答案进行排列并计算与人类排名的相关性，证明了HRE的有效性。研究还发现HRE在不同大小的预训练和指导调整语言模型中的效率，并且对模型变化特别敏感。

HumanRankEval 对话助手指导调整自动评估任务语言模型