本研究创建了新的数据集LFRQA,解决了现有数据集的局限性。通过使用大型语言模型作为评估器,通过RAG-QA Arena比较模型生成的答案和LFRQA答案,结果表明RAG-QA Arena与人工判断的答案质量高度相关。
完成下面两步后,将自动完成登录并继续当前操作。