BotEval: 促进交互式人工评估
原文中文,约300字,阅读约需1分钟。发表于: 。自然语言处理 (NLP) 模型在交互任务的快速发展中越来越应用于越来越复杂的任务,我们开发了 BotEval,一个易于定制、开源的评估工具包,重点在于使人与机器交互成为评估过程的一部分,而不是仅对一个静态输入进行人工评判。通过评估各种聊天机器人在会话调节中的效果,我们展示了 BotEval 的众多有用功能,并讨论了 BotEval 与其他注释工具的区别。
研究人员提出了一种新的自动评估任务HumanRankEval(HRE),通过对答案进行排列并计算与人类排名的相关性,证明了HRE的有效性。研究人员还研究了HRE在不同大小的预训练和指导调整语言模型中的效率,结果表明HRE与人类判断相关,并且在指导调整后对模型变化特别敏感。