人工智能领域的一个重要问题是如何训练模型以生成事实正确的回答。目前的语言模型有时会产生虚假信息,称为“幻觉”。我们正在开源一个新的基准SimpleQA,以评估语言模型的事实性。
完成下面两步后,将自动完成登录并继续当前操作。