港中文贾佳亚团队发布了MR-Ben数据集,用于评测大模型的推理能力。该数据集通过“阅卷式”评测方式,细致分析解题过程,避免模型背题导致的虚高分数。MR-Ben的构建流程经过精心标注和培训,能够量化模型的知识点掌握情况。评测方式难度高,但能有效区分不同模型的能力。
完成下面两步后,将自动完成登录并继续当前操作。