小红花·文摘

本研究创建了新的数据集LFRQA，解决了现有数据集的局限性。通过使用大型语言模型作为评估器，通过RAG-QA Arena比较模型生成的答案和LFRQA答案，结果表明RAG-QA Arena与人工判断的答案质量高度相关。