小红花·文摘

该文章介绍了一个名为“felm”的语言模型真实性评估基准，收集了来自语言模型的响应并以细化的方式注释了真实性标签。然而，实验证实，当前的语言模型在忠实地检测事实错误方面还有待提高。