机器之心 ·

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

港中文贾佳亚团队发布了MR-Ben数据集，用于评测大模型的推理能力。该数据集通过“阅卷式”评测方式，细致分析解题过程，避免模型背题导致的虚高分数。MR-Ben的构建流程经过精心标注和培训，能够量化模型的知识点掌握情况。评测方式难度高，但能有效区分不同模型的能力。

🎯

关键要点

港中文贾佳亚团队发布了MR-Ben数据集，用于评测大模型的推理能力。
MR-Ben采用“阅卷式”评测方式，分析解题过程，避免模型背题导致的虚高分数。
该数据集经过精心标注和培训，能够量化模型的知识点掌握情况。
MR-Ben评测了多种国内外一线模型，并进行了详尽分析。
目前的主流评测方式使用标准化考试，但存在模型背题的问题。
MR-Ben通过复杂问题推理过程的评测，提供更高的区分度。
评测过程中，模型需对解题过程进行细致分析，避免简单答题。
MR-Ben的构建流程经过高水平硕博标注者的精心标注。
评测结果显示，闭源模型GPT4-Turbo表现最佳，但仍有改进空间。
MR-Ben评测了不同类型的模型，发现小模型在特定场景下表现突出。
贾佳亚团队已在GitHub上提供一键评测功能，欢迎用户参与评测。

❓

延伸问答

MR-Ben数据集的主要目的是什么？

MR-Ben数据集用于评测大模型的推理能力，采用“阅卷式”评测方式，分析解题过程。

MR-Ben如何避免模型背题导致的虚高分数？

MR-Ben通过让模型以“阅卷”模式评测解题过程，避免了简单答题导致的分数虚高。

贾佳亚团队在MR-Ben数据集的构建中采取了哪些措施？

贾佳亚团队通过高水平硕博标注者精心标注题目，确保解题过程的准确性和高质量。

MR-Ben评测了哪些大模型？

MR-Ben评测了多种国内外一线模型，包括GPT4-Turbo、Claude3.5-Sonnet等。

MR-Ben的评测结果显示了哪些模型的表现？

评测结果显示，闭源模型GPT4-Turbo表现最佳，但仍有改进空间。

MR-Ben数据集的评测方式与传统评测方式有何不同？

MR-Ben采用复杂问题推理的评测方式，强调解题过程的分析，而传统方式多依赖最终答案的正确性。

🏷️

标签

MR-Ben数据集推理能力模型背题清华港中文贾佳亚团队阅卷式评测

➡️

继续阅读

阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
GitHub Increased Instant Navigation from 4% to 22% by Rethinking Client Side Architecture
GitHub redesigned GitHub Issues navigation using a client-side architecture t...
Kaggle + Google’s Free 5-Day Agentic AI Course
Google and Kaggle's 5-Day AI agents course is now freely available to everyone.
Architecting offline-first generative AI applications for edge deployments using AWS services
According to Siemens’ 2024 report The True Cost of Downtime, Fortune 500 comp...
Automate custom PII detection at scale with Amazon Macie and Step Functions
Organizations in regulated industries like financial services, insurance, hea...
Samsung’s newest foldable finally feels Ultra
While we wait for Apple's rumored foldable iPhone, Samsung is polishing a...