本研究提出了一种基于检索增强生成的评估方法,对自动事实核查进行基准测试。结果表明,尽管大型语言模型在真实性核查方面表现良好,但在处理不同知识库时仍面临挑战,显示出未来改进的潜力。
完成下面两步后,将自动完成登录并继续当前操作。