OpenAI ·

TruthfulQA：评估模型如何模仿人类的虚假回答

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

我们提出了一个基准来评估语言模型在回答问题时的真实性，涵盖健康、法律、金融和政治等38个类别，共817个问题。测试结果显示，最佳模型的真实性为58%，而人类为94%。模型常生成模仿流行误解的错误答案，且较大模型的真实性通常较低。我们认为，仅通过扩大模型规模来提高真实性的效果有限。

🎯

🔎

尽管大型语言模型在许多自然语言处理任务中表现出色，但在生成真实答案方面却存在显著局限。测试结果显示，最佳模型的真实性仅为58%，远低于人类的94%。这表明，模型在模仿人类文本时，容易生成错误答案，可能导致误导性信息的传播。

文章指出，仅通过扩大模型规模来提高真实性的效果有限。相反，采用其他训练目标进行微调可能更有效。这提示研究者在开发语言模型时，应关注训练方法的多样性，以提升模型在真实回答方面的表现。

模型生成的错误答案往往模仿流行的误解，这不仅影响了模型的可信度，也可能对用户造成误导。因此，在使用这些模型时，用户应保持警惕，特别是在涉及健康、法律等重要领域时，需核实信息的真实性。

❓

TruthfulQA基准旨在评估语言模型在回答问题时的真实性。

基准包含817个问题，涵盖健康、法律、金融和政治等38个类别。

表现最好的模型在58%的问题上表现真实，而人类的表现为94%。

较大的模型通常真实性较低，这与其他NLP任务的表现提升趋势相反。

模型生成错误答案是因为模仿流行误解，可能会误导人类。

建议使用其他训练目标进行微调，而不仅仅是扩大模型规模。

🏷️