HumanRankEval: 作为对话助手的语言模型的自动评估
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究人员提出了一种新的自动评估任务HumanRankEval(HRE),通过对答案进行排列并计算与人类排名的相关性,证明了HRE的有效性。研究还发现HRE在不同大小的预训练和指导调整语言模型中的效率,并且对模型变化特别敏感。
🏷️