GPQA:一份应届毕业生可接受且无需谷歌验证的问答基准 GPQA 是一个由生物学、物理学和化学领域的专家编写的高难度的 448 个多选题的数据集,通过验证人员的准确性测试和对最先进的 AI 系统的测试表明这些问题对于非专家和 AI 系统来说都具有一定难度,因此需要开发可扩展的监督方法以提供人类对 AI 系统进行可靠监督和获取可靠信息的能力。 GPQA是一个448个多选题的高难度数据集,对非专家和AI系统都具有一定难度。需要开发可扩展的监督方法以提供可靠的人类监督和获取可靠信息的能力。 GPQA 可靠信息 多选题 监督方法 谷歌 高难度