GroUSE:评估基于知识查询的答案评估者的基准
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的方法来评估检索增强的大型语言模型(RAG)的任务特定准确性。通过自动生成合成考试并利用项目反应理论(IRT)估计考试质量和信息量,以提高任务特定准确性。实验结果显示,选择正确的检索算法比仅使用更大的语言模型能够带来更大的性能收益。
🎯
关键要点
- 提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。
- 通过自动生成合成考试评估与任务相关的文档语料库的多项选择问题评分。
- 该方法是自动化、成本高效、可解释和稳健的,旨在选择RAG系统的最佳组件。
- 利用项目反应理论(IRT)估计考试的质量和信息量,以提高任务特定准确性。
- 在四个新型开放问答任务上演示了该方法,包括Arxiv摘要、StackExchange问题等。
- 实验揭示了影响RAG性能的因素,如大小、检索机制、提示和微调。
- 研究结果表明,选择正确的检索算法比仅使用更大的语言模型能带来更大的性能收益。
➡️