小红花·文摘

本文提出了LLM-Eval，一种用于评估开放领域对话系统的统一方法。通过设计基于单个提示的评估方法，LLM-Eval可以在单个模型调用中进行多维自动评估。该方法在各种基准数据集上表现出高效性和适应性，并强调了选择适当的LLM和解码策略的重要性。LLM-Eval为评估对话系统提供了一种多功能且强大的解决方案。