MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试
原文中文,约500字,阅读约需2分钟。发表于: 。在大规模语言模型的时代,本论文引入了 MMLU-Pro,这是一个增强的数据集,旨在扩展主要以知识驱动的 MMLU 基准测试,并且在其中集成了更具挑战性且关注推理的问题,从 4 个选项扩展到 10 个选项,同时消除了 MMLU 中的琐碎和噪声问题。与 MMLU 相比,实验证明 MMLU-Pro 不仅提高了挑战性,导致准确率下降了 16%至...
本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展主要以知识驱动的MMLU基准测试,并集成了更具挑战性和关注推理的问题。实验证明MMLU-Pro提高了挑战性,准确率下降了16%至33%,对不同提示的模型评分的敏感性也下降了。在MMLU-Pro上,采用CoT推理的模型表现更好。评估结果证实MMLU-Pro是一个更有区分性的基准测试。