小红花·文摘

该研究提出了一种新的方法来评估检索增强的大型语言模型（RAG）的任务特定准确性。通过自动生成合成考试并利用项目反应理论（IRT）估计考试质量和信息量，以提高任务特定准确性。实验结果显示，选择正确的检索算法比仅使用更大的语言模型能够带来更大的性能收益。