小红花·文摘

大型语言模型在开放式主题的事实查询中常出现错误。研究提出了一种名为SAFE的方法，通过多步推理评估长篇回复的准确性。实验证明，SAFE在评估上超越人类标注者，且成本低。研究还探讨了长篇问答任务的评估挑战，并提出改进建议，以提高答案的相关性和可靠性。