SuperGPQA:跨285个研究生学科的计算语言模型评估规模化
📝
内容提要
本研究解决了当前大语言模型(LLMs)在超过200个专业领域,尤其是轻工业、农业和服务导向学科中的评估不足的问题。通过提出SuperGPQA这一综合基准,采用人机协同过滤机制对研究生层面的知识和推理能力进行评估,实验结果显示现有LLMs的表现存在显著提升空间,推动了对人工通用智能的理解。
🏷️
标签
➡️