本文提出了LLM-Eval,一种用于评估开放领域对话系统的统一方法。通过设计基于单个提示的评估方法,LLM-Eval可以在单个模型调用中进行多维自动评估。该方法在各种基准数据集上表现出高效性和适应性,并强调了选择适当的LLM和解码策略的重要性。LLM-Eval为评估对话系统提供了一种多功能且强大的解决方案。
完成下面两步后,将自动完成登录并继续当前操作。