本研究比较了大型语言模型(如GPT-4o)与人类评审在TREC 2024 RAG轨道中对引文信息支持答案的判断。结果表明,GPT-4o与人类评审的一致性较高,尤其在人工后编辑条件下,显示出LLM评审可作为可靠的替代方案。
完成下面两步后,将自动完成登录并继续当前操作。