本文提出了LLM-Eval,一种用于评估开放领域对话系统的统一方法。通过设计基于单个提示的评估方法,LLM-Eval可以在单个模型调用中进行多维自动评估。该方法在各种基准数据集上表现出高效性和适应性,并强调了选择适当的LLM和解码策略的重要性。LLM-Eval为评估对话系统提供了一种多功能且强大的解决方案。
本文介绍了CausalScore,一种用于评估开放领域对话系统回应质量的新度量标准。通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。实验结果显示CausalScore在与人类判断的一致性方面优于现有指标。作者还提供了一个带有人工注释的因果关系对话数据集CGDIALOG+,以促进未来自动度量标准的发展。
研究人员提出了基准系统ComperDial,用于开放领域对话系统的训练和评估。系统包括1,485个对话中的10,395个对话转折的人工评分响应。研究人员还开发了自动评估度量标准CPDScore,与人类判断相关。ComperDial和CPDScore已发布给社区,加速开放领域对话系统自动评估度量标准的开发。
LLM-Eval是一种用于评估开放领域对话系统的多维自动评估方法,可以在单个模型调用中覆盖多个方面,并在各种基准数据集上表现出高效性和适应性。同时,该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。
完成下面两步后,将自动完成登录并继续当前操作。