融合评估器与 LLMs:Fusion-Eval
利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性,超过了其他评估方法,在 LLM 评估领域树立了新的标准。
本文提出了LLM-Eval,一种用于评估开放领域对话的统一方法。LLM-Eval可以通过单个模型调用来评估会话质量的多个方面。研究表明,LLM-Eval相对于其他评估方法更高效和适应性强。同时,选择适当的LLM和解码策略对于准确评估结果也很重要。LLM-Eval为评估对话系统提供了一种多功能和强大的解决方案,可以简化评估过程并提供一致的性能。