BotEval: 促进交互式人工评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究人员提出了一种新的自动评估任务HumanRankEval(HRE),通过对答案进行排列并计算与人类排名的相关性,证明了HRE的有效性。研究人员还研究了HRE在不同大小的预训练和指导调整语言模型中的效率,结果表明HRE与人类判断相关,并且在指导调整后对模型变化特别敏感。

🎯

关键要点

  • 提出了一种新的自动评估任务:HumanRankEval(HRE)。
  • HRE由一个大规模、多样化和高质量的问题集组成。
  • 每个问题都有几个由人类撰写和评分的答案。
  • 通过排列答案并计算与人类排名的相关性,证明了HRE的有效性。
  • 研究了HRE在不同大小的预训练和指导调整语言模型中的效率。
  • HRE与人类判断相关,并且在指导调整后对模型变化特别敏感。
➡️

继续阅读