我们提出了一种新方法来评估检索增强的大型语言模型(RAG)的准确性。通过自动生成合成考试和多项选择题评分,利用项目反应理论(IRT)提高评估准确性,并在四个开放问答任务上验证。研究发现,选择合适的检索算法比仅使用更大的模型更能提升性能。
完成下面两步后,将自动完成登录并继续当前操作。