小红花·文摘

本研究提出了一种基于检索增强生成的评估方法，对自动事实核查进行基准测试。结果表明，尽管大型语言模型在真实性核查方面表现良好，但在处理不同知识库时仍面临挑战，显示出未来改进的潜力。