MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展主要以知识驱动的MMLU基准测试,并集成了更具挑战性和关注推理的问题。实验证明MMLU-Pro提高了挑战性,准确率下降了16%至33%,对不同提示的模型评分的敏感性也下降了。在MMLU-Pro上,采用CoT推理的模型表现更好。评估结果证实MMLU-Pro是一个更有区分性的基准测试。

🎯

关键要点

  • 本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展MMLU基准测试。
  • MMLU-Pro集成了更具挑战性和关注推理的问题,从4个选项扩展到10个选项。
  • MMLU-Pro消除了MMLU中的琐碎和噪声问题。
  • 实验证明MMLU-Pro提高了挑战性,导致准确率下降了16%至33%。
  • MMLU-Pro对不同提示的模型评分的敏感性下降。
  • 在MMLU-Pro上,采用Chain of Thought (CoT)推理的模型表现更好。
  • MMLU-Pro包含更复杂的推理问题,与原始MMLU的研究结果形成鲜明对比。
  • 评估结果证实MMLU-Pro是一个更有区分性的基准测试,以更好地追踪领域的进展。
➡️

继续阅读