FactAlign：大规模语言模型的长文本事实对齐

本研究解决了大规模语言模型在长文本响应中产生非事实内容的问题，提出了一个名为FactAlign的新对齐框架，以提高长文本的事实准确性和实用性。实验结果表明，FactAlign显著改善了LLM响应的事实准确性，并在增加信息量的同时保持了事实的精确性，极大地提高了F1准确率。

研究者使用GPT-4生成了38000个问题的测试集，并提出了SAFE方法。SAFE将长篇回复分解为单个事实，通过Google搜索验证准确性。研究扩展了F1分数评估长篇事实性，结果显示SAFE在16k个事实集上优于人类标注者且成本更低。对十三个语言模型的基准测试显示，较大模型表现更好。

F1分数 GPT-4 SAFE方法事实验证语言模型