大型语言模型在检索增强生成中的偏见评估

本研究解决了大型语言模型（LLMs）在检索增强生成（RAG）框架中偏见评估的知识空白。通过模拟RAG的两个关键阶段，研究发现与以往结果不同，LLMs在RAG框架中没有显著的自我偏好效应，而是证明了事实准确性在模型输出中具有重要影响。这一发现有助于推动对LLMs偏见的理解，并为开发更鲁棒的LLM系统提供了启示。

大型语言模型（LLMs）在自动评估中表现有效，但存在认知偏差，输出质量受偏见影响，平均偏差达到40%。机器与人类偏好不一致，Rank-Biased Overlap得分为49.6%。因此，LLMs不适合用于自动注释。