我们结束了 MMLU 吗?

📝

内容提要

我们检测和分析了流行的大规模多任务语言理解(MMLU)基准测试中的错误,并发现大量的实际误差,使 LLM 的真实能力变得模糊。为了解决这个问题,我们引入了一个全面的框架来识别数据集错误,使用新的错误分类法创建了 MMLU-Redux,它是 30 个 MMLU 主题中,通过手动重新注释的 3,000 个子集问题。通过...

➡️

继续阅读