MIRAGE:用于检索增强生成评估的度量密集基准

📝

内容提要

本研究解决了检索增强生成(RAG)系统评估中组件间复杂相互作用造成的挑战,导致现有基准稀缺的问题。我们提出了MIRAGE,一个专为RAG评估设计的问题回答数据集,提供了7,560个实例,并映射至37,800个条目的检索池,同时引入新评估指标以测量RAG的适应性。研究发现优化模型对齐及RAG系统内部动态提供了新见解。

➡️

继续阅读