MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展主要以知识驱动的MMLU基准测试,并集成了更具挑战性和关注推理的问题。实验证明MMLU-Pro提高了挑战性,准确率下降了16%至33%,对不同提示的模型评分的敏感性也下降了。在MMLU-Pro上,采用CoT推理的模型表现更好。评估结果证实MMLU-Pro是一个更有区分性的基准测试。
🎯
关键要点
- 本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展MMLU基准测试。
- MMLU-Pro集成了更具挑战性和关注推理的问题,从4个选项扩展到10个选项。
- MMLU-Pro消除了MMLU中的琐碎和噪声问题。
- 实验证明MMLU-Pro提高了挑战性,导致准确率下降了16%至33%。
- MMLU-Pro对不同提示的模型评分的敏感性下降。
- 在MMLU-Pro上,采用Chain of Thought (CoT)推理的模型表现更好。
- MMLU-Pro包含更复杂的推理问题,与原始MMLU的研究结果形成鲜明对比。
- 评估结果证实MMLU-Pro是一个更有区分性的基准测试,以更好地追踪领域的进展。
➡️