小红花·文摘

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则

机器之心 ·

测试时重用预训练数据是计算增益的倍增器

Apple Machine Learning Research ·

本研究提出了专为通用推理任务设计的检索器ReasonIR-8B，克服了现有检索器在推理任务中的局限性。通过合成数据生成，ReasonIR-8B在BRIGHT基准测试中取得了新成绩，显著提升了MMLU和GPQA的性能，展示了其优势和广泛适用性。

ReasonIR：为推理任务训练检索器

BriefGPT - AI 论文速递 ·

该研究提出了Mobile-MMLU，这是一个专为移动智能设计的大规模基准数据集，旨在评估大型语言模型在移动设备中的表现，重点关注推理延迟和能量消耗等关键指标，为移动计算环境中的智能应用提供标准化评估框架。

Mobile Intelligence Language Understanding Benchmark: Mobile-MMLU

BriefGPT - AI 论文速递 ·

哪个模型在知识评估中表现更佳？

DEV Community ·

本研究提出了一种新颖的多样化指纹集成（DFPE）方法，旨在提升大型语言模型在复杂领域的性能。实验结果显示，DFPE在MMLU基准测试中的总体准确性比最佳单一模型提高了3%，在学科层面提升了5%。

DFPE: A Diversified Fingerprint Ensemble Method for Enhancing the Performance of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了MMLU-CF，一个无污染的多选题基准，旨在解决现有多选题数据集在评估大型语言模型时的污染问题。通过引入多样化的数据来源和去污染规则，MMLU-CF提高了评估结果的可信性，确保了模型评估的难度和真实性。

MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark

BriefGPT - AI 论文速递 ·

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准，旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务，解决多任务性和少样本性问题，基于真实购物数据构建。研究表明，闭源模型优于开源模型，但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考，并已开源。

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

量子位 ·

本文介绍了多个与电子商务相关的数据集和模型，如购物查询数据集、ECInstruct数据集和IntentionQA基准，强调大型语言模型（LLMs）在推荐系统中的优势。研究表明，LLMs在理解用户意图和提供个性化推荐方面表现出色，但仍面临输入敏感性和误解等挑战。整体来看，LLMs在电子商务领域具有巨大的潜力和应用前景。

购物MMLU：用于大型语言模型的在线购物大规模多任务基准

BriefGPT - AI 论文速递 ·

该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务，评估模型在多步推理、常识推理和因果理解上的表现。研究发现，尽管LLMs在语言生成上表现良好，但在复杂推理任务上仍有不足，需进一步研究以提升AI的推理能力。

超越下一个词预测：通过多模态语言任务对大型语言模型推理进行压力测试

DEV Community ·

滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了MMLU-Pro数据集，用于评估大语言模型的能力。该数据集包含来自多个来源的问题，旨在更严格地测试大型语言模型的功能。该数据集已在hyper.ai提供下载。

MMLU-Pro 基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署

HyperAI超神经 ·

MMLU-Pro基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署...

HyperAI超神经 ·

本文探讨了大型语言模型（LLMs）的能力与局限性，提出了新基准以评估其推理能力和问答性能。研究发现，LLMs在多项选择题和条件问答中对选项顺序敏感，并提出了改进策略。新基准如NPHardEval和MMLU-Pro旨在提高评估准确性，强调模型理解能力的重要性。

MMLU-Pro+: 评估大语言模型中的高阶推理和捷径学习

BriefGPT - AI 论文速递 ·

数据压缩语言模型（DataComp-LM）：寻找下一代语言模型训练集

Apple Machine Learning Research ·

我们检测和分析了流行的大规模多任务语言理解（MMLU）基准测试中的错误，并发现大量的实际误差，使 LLM 的真实能力变得模糊。为了解决这个问题，我们引入了一个全面的框架来识别数据集错误，使用新的错误分类法创建了 MMLU-Redux，它是 30 个 MMLU 主题中，通过手动重新注释的 3,000 个子集问题。通过...

我们结束了 MMLU 吗？

BriefGPT - AI 论文速递 ·

本文介绍了针对大型语言模型（LLMs）和多模态大型语言模型（MLLMs）的基准测试，如CMMLU、ArcMMLU和KMMLU，评估其在不同领域的表现。研究表明，现有模型在准确性上仍有提升空间，特别是在复杂推理和领域专有知识方面。新基准的提出旨在推动模型的发展和改进。

MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

BriefGPT - AI 论文速递 ·

评价基准在人工智能研讨中的重要性及其相关论文，如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难，人工成对评分和模型生成的评价是新方向。评价主题决定关注度，测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份，投资评价基准对AI研讨人员有益。

评估基准在人工智能研究中的重要性

六虎 ·

该研究介绍了ArcMMLU，一种为中文图书馆与信息科学领域定制的基准测试，旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。研究发现大多数主流LLM在ArcMMLU上的平均准确率超过50％，但仍存在性能差距，表明LLM功能仍有提升空间。ArcMMLU填补了中文LIS领域LLM评估的空白，为未来定制该专门领域的LLM的发展铺平了道路。

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

BriefGPT - AI 论文速递 ·

谷歌CEO宣布Gemini 1.0上线，是一款强大的人工智能模型，能理解文本、图像、视频和音频，具有复杂多模态推理能力。Gemini是第一个在MMLU上超越人类专家的模型，性能优于大型语言模型。Gemini是原生多模态，能从底层无缝地理解和推理各种输入。Gemini能帮助发现隐藏信息，但不擅长写代码。Gemini可作为GPT4的平替。

Google Gemini 1.0正式发布，12月13日开放使用

棋の小站 ·

开放式大型语言模型排行榜发生了什么？

Hugging Face - Blog ·