小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则

抱歉,您提供的文本内容不足以进行总结。请提供更详细的文章内容。

走出MMLU的高分幻觉:AI Agent的「斯坦利时刻」与职场生存法则

机器之心
机器之心 · 2026-02-12T06:46:43Z
测试时重用预训练数据是计算增益的倍增器

本文探讨了重用预训练数据在测试中的有效性。研究表明,通过检索增强生成和测试时计算,模型在MMLU、Math-500和SimpleQA等任务上的准确性显著提高。在MMLU上,预训练结合检索的方式实现了约5倍的计算增益,进一步的测试时计算可提升10个百分点。这表明当前预训练方法未充分利用现有数据集的信息,仍有改进空间。

测试时重用预训练数据是计算增益的倍增器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-12T00:00:00Z

本研究提出了专为通用推理任务设计的检索器ReasonIR-8B,克服了现有检索器在推理任务中的局限性。通过合成数据生成,ReasonIR-8B在BRIGHT基准测试中取得了新成绩,显著提升了MMLU和GPQA的性能,展示了其优势和广泛适用性。

ReasonIR:为推理任务训练检索器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

该研究提出了Mobile-MMLU,这是一个专为移动智能设计的大规模基准数据集,旨在评估大型语言模型在移动设备中的表现,重点关注推理延迟和能量消耗等关键指标,为移动计算环境中的智能应用提供标准化评估框架。

Mobile Intelligence Language Understanding Benchmark: Mobile-MMLU

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z
哪个模型在知识评估中表现更佳?

在快速发展的AI领域,Claude、GPT和Gemini是主要的大型语言模型。根据MMLU基准测试,GPT-4o以88.7%的得分领先,显示出卓越的知识和推理能力。Claude-3-Opus得分86.8%,GPT-4得分86.5%。选择模型时应根据项目需求考虑准确性、效率或多样性。

哪个模型在知识评估中表现更佳?

DEV Community
DEV Community · 2025-03-13T17:37:43Z

本研究提出了一种新颖的多样化指纹集成(DFPE)方法,旨在提升大型语言模型在复杂领域的性能。实验结果显示,DFPE在MMLU基准测试中的总体准确性比最佳单一模型提高了3%,在学科层面提升了5%。

DFPE:提升大型语言模型性能的多样化指纹集成方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了无污染且更具挑战性的多选题基准MMLU-CF,旨在解决大型语言模型评估中的基准污染问题,通过引入多样数据和去污染规则,确保评估结果的可信性。

MMLU-CF:无污染的多任务语言理解基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024

量子位
量子位 · 2024-11-20T04:28:53Z

大规模语言模型(LLMs)在推荐系统中展现出优于传统系统的推理能力,能够理解语言的细微差别,推动推荐领域的变革。研究者利用LLMs的语言理解和生成能力重新定义推荐任务,但仍面临输入敏感性和误解等挑战。

购物MMLU:用于大型语言模型的在线购物大规模多任务基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。

超越下一个词预测:通过多模态语言任务对大型语言模型推理进行压力测试

DEV Community
DEV Community · 2024-10-07T10:05:33Z

滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了MMLU-Pro数据集,用于评估大语言模型的能力。该数据集包含来自多个来源的问题,旨在更严格地测试大型语言模型的功能。该数据集已在hyper.ai提供下载。

MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

HyperAI超神经
HyperAI超神经 · 2024-09-14T09:16:07Z

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 M...

MMLU-Pro基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署...

HyperAI超神经
HyperAI超神经 · 2024-09-14T03:35:47Z

该研究评估了大型语言模型在条件问答领域的能力和局限性。研究发现,微调的模型在某些情况下优于现有技术,但在抽取性问答方面存在挑战。研究强调了有效证据检索的重要性,并提出了改进训练任务和探索基于提示的技术以提高模型性能的未来工作的需求。

MMLU-Pro+: 评估大语言模型中的高阶推理和捷径学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-03T00:00:00Z

我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变难度,降低记忆泄露基准测试导致的性能夸大影响。实验结果表明,ITD方法在GSM8K上可以降低22.9%的夸大准确性,在MMLU上可以降低19.0%。希望ITD方法能为大型语言模型提供更真实的评估结果。

推理时去污:重复使用泄露的基准测试用于大型语言模型评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

我们检测和分析了流行的大规模多任务语言理解(MMLU)基准测试中的错误,并发现大量的实际误差,使 LLM 的真实能力变得模糊。为了解决这个问题,我们引入了一个全面的框架来识别数据集错误,使用新的错误分类法创建了 MMLU-Redux,它是 30 个 MMLU 主题中,通过手动重新注释的 3,000 个子集问题。通过...

我们结束了 MMLU 吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-06T00:00:00Z

本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展主要以知识驱动的MMLU基准测试,并集成了更具挑战性和关注推理的问题。实验证明MMLU-Pro提高了挑战性,准确率下降了16%至33%,对不同提示的模型评分的敏感性也下降了。在MMLU-Pro上,采用CoT推理的模型表现更好。评估结果证实MMLU-Pro是一个更有区分性的基准测试。

MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

评价基准在人工智能研讨中的重要性及其相关论文,如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难,人工成对评分和模型生成的评价是新方向。评价主题决定关注度,测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份,投资评价基准对AI研讨人员有益。

评估基准在人工智能研究中的重要性

六虎
六虎 · 2024-05-30T00:03:04Z

该研究介绍了ArcMMLU,一种为中文图书馆与信息科学领域定制的基准测试,旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。研究发现大多数主流LLM在ArcMMLU上的平均准确率超过50%,但仍存在性能差距,表明LLM功能仍有提升空间。ArcMMLU填补了中文LIS领域LLM评估的空白,为未来定制该专门领域的LLM的发展铺平了道路。

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-20T00:00:00Z

谷歌CEO宣布Gemini 1.0上线,是一款强大的人工智能模型,能理解文本、图像、视频和音频,具有复杂多模态推理能力。Gemini是第一个在MMLU上超越人类专家的模型,性能优于大型语言模型。Gemini是原生多模态,能从底层无缝地理解和推理各种输入。Gemini能帮助发现隐藏信息,但不擅长写代码。Gemini可作为GPT4的平替。

Google Gemini 1.0正式发布,12月13日开放使用

棋の小站
棋の小站 · 2023-12-07T15:25:00Z
开放式大型语言模型排行榜发生了什么?

本文介绍了开放式大型语言模型排行榜Open LLM Leaderboard中的一个评估标准——Massive Multitask Language Understanding(MMLU),以及该标准在不同实现中的差异。作者通过对三种不同实现的MMLU评估方法进行比较,发现它们给出的评估结果存在较大差异,甚至会改变模型在排行榜上的排名。作者指出,评估结果的差异与实现细节密切相关,因此开放、标准化、可重现的基准测试非常重要。最后,作者表示Open LLM Leaderboard将继续使用社区维护的评估库,并更新了MMLU的评估方法,以使其与原始实现相似。

开放式大型语言模型排行榜发生了什么?

Hugging Face - Blog
Hugging Face - Blog · 2023-06-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码