排名者、评审者与助手:理解大语言模型在信息检索评估中的相互作用
📝
内容提要
本研究解决了大语言模型(LLMs)在信息检索评估中可能引发的偏见问题。通过新颖的实验设计,论文首次实证发现LLM评审者对LLM排名者存在显著偏见,同时揭示了LLM评审者辨别系统性能差异的局限性。这些发现强调了全面理解LLM驱动的信息生态系统的必要性,并提出了确保LLM在信息检索评估中可靠使用的初步指导方针和研究议程。
➡️