我们提出了一个基准来评估语言模型在回答问题时的真实性,涵盖健康、法律、金融和政治等38个类别,共817个问题。测试结果显示,最佳模型的真实性为58%,而人类为94%。模型常生成模仿流行误解的错误答案,且较大模型的真实性通常较低。我们认为,仅通过扩大模型规模来提高真实性的效果有限。
完成下面两步后,将自动完成登录并继续当前操作。