SuperGPQA:跨285个研究生学科的计算语言模型评估规模化

📝

内容提要

本研究解决了当前大语言模型(LLMs)在超过200个专业领域,尤其是轻工业、农业和服务导向学科中的评估不足的问题。通过提出SuperGPQA这一综合基准,采用人机协同过滤机制对研究生层面的知识和推理能力进行评估,实验结果显示现有LLMs的表现存在显著提升空间,推动了对人工通用智能的理解。

🏷️

标签

➡️

继续阅读