FactAlign:大规模语言模型的长文本事实对齐
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
研究者使用GPT-4生成了38000个问题的测试集,并提出了SAFE方法。SAFE将长篇回复分解为单个事实,通过Google搜索验证准确性。研究扩展了F1分数评估长篇事实性,结果显示SAFE在16k个事实集上优于人类标注者且成本更低。对十三个语言模型的基准测试显示,较大模型表现更好。
🎯
关键要点
-
研究者使用GPT-4生成了一个包含38000个问题的长篇事实测试集。
-
提出了SAFE方法,通过将长篇回复分解为单个事实来评估准确性。
-
SAFE使用多步推理过程,通过Google搜索验证每个事实的准确性。
-
扩展了F1分数作为评估长篇事实性的聚合度量标准。
-
实证结果显示,SAFE在16k个事实集上优于人类标注者,且成本更低。
-
SAFE与众包人类标注者的意见达成72%一致,且在不一致案例中胜出76%。
-
对十三个语言模型的基准测试显示,较大模型通常表现更好。
➡️