评估检索增强生成模型的答案质量:强大的 LLM 足够了
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种全面评估检索增强生成(RAG)应用中答案质量的方法,使用 vRAG-Eval,这是一种新的评分系统,旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数,表示接受或拒绝的决策,反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型(LLM),评估由基本 RAG...
我们提出了一种新的评分系统vRAG-Eval,用于评估检索增强生成应用中答案的质量。与人类专家评判相比,发现GPT-4的评估结果与人类专家评判一致。这项研究突出了语言模型在封闭领域中作为可靠评估者的潜力。