抱歉,您提供的文本内容不足以进行总结。请提供更详细的文章内容。
本文探讨了重用预训练数据在测试中的有效性。研究表明,通过检索增强生成和测试时计算,模型在MMLU、Math-500和SimpleQA等任务上的准确性显著提高。在MMLU上,预训练结合检索的方式实现了约5倍的计算增益,进一步的测试时计算可提升10个百分点。这表明当前预训练方法未充分利用现有数据集的信息,仍有改进空间。
本研究提出了专为通用推理任务设计的检索器ReasonIR-8B,克服了现有检索器在推理任务中的局限性。通过合成数据生成,ReasonIR-8B在BRIGHT基准测试中取得了新成绩,显著提升了MMLU和GPQA的性能,展示了其优势和广泛适用性。
该研究提出了Mobile-MMLU,这是一个专为移动智能设计的大规模基准数据集,旨在评估大型语言模型在移动设备中的表现,重点关注推理延迟和能量消耗等关键指标,为移动计算环境中的智能应用提供标准化评估框架。
在快速发展的AI领域,Claude、GPT和Gemini是主要的大型语言模型。根据MMLU基准测试,GPT-4o以88.7%的得分领先,显示出卓越的知识和推理能力。Claude-3-Opus得分86.8%,GPT-4得分86.5%。选择模型时应根据项目需求考虑准确性、效率或多样性。
本研究提出了一种新颖的多样化指纹集成(DFPE)方法,旨在提升大型语言模型在复杂领域的性能。实验结果显示,DFPE在MMLU基准测试中的总体准确性比最佳单一模型提高了3%,在学科层面提升了5%。
本研究提出了无污染且更具挑战性的多选题基准MMLU-CF,旨在解决大型语言模型评估中的基准污染问题,通过引入多样数据和去污染规则,确保评估结果的可信性。
亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。
大规模语言模型(LLMs)在推荐系统中展现出优于传统系统的推理能力,能够理解语言的细微差别,推动推荐领域的变革。研究者利用LLMs的语言理解和生成能力重新定义推荐任务,但仍面临输入敏感性和误解等挑战。
该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。
滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了MMLU-Pro数据集,用于评估大语言模型的能力。该数据集包含来自多个来源的问题,旨在更严格地测试大型语言模型的功能。该数据集已在hyper.ai提供下载。
在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 M...
该研究评估了大型语言模型在条件问答领域的能力和局限性。研究发现,微调的模型在某些情况下优于现有技术,但在抽取性问答方面存在挑战。研究强调了有效证据检索的重要性,并提出了改进训练任务和探索基于提示的技术以提高模型性能的未来工作的需求。
我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变难度,降低记忆泄露基准测试导致的性能夸大影响。实验结果表明,ITD方法在GSM8K上可以降低22.9%的夸大准确性,在MMLU上可以降低19.0%。希望ITD方法能为大型语言模型提供更真实的评估结果。
我们检测和分析了流行的大规模多任务语言理解(MMLU)基准测试中的错误,并发现大量的实际误差,使 LLM 的真实能力变得模糊。为了解决这个问题,我们引入了一个全面的框架来识别数据集错误,使用新的错误分类法创建了 MMLU-Redux,它是 30 个 MMLU 主题中,通过手动重新注释的 3,000 个子集问题。通过...
本论文介绍了MMLU-Pro,一个增强的数据集,旨在扩展主要以知识驱动的MMLU基准测试,并集成了更具挑战性和关注推理的问题。实验证明MMLU-Pro提高了挑战性,准确率下降了16%至33%,对不同提示的模型评分的敏感性也下降了。在MMLU-Pro上,采用CoT推理的模型表现更好。评估结果证实MMLU-Pro是一个更有区分性的基准测试。
评价基准在人工智能研讨中的重要性及其相关论文,如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难,人工成对评分和模型生成的评价是新方向。评价主题决定关注度,测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份,投资评价基准对AI研讨人员有益。
该研究介绍了ArcMMLU,一种为中文图书馆与信息科学领域定制的基准测试,旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。研究发现大多数主流LLM在ArcMMLU上的平均准确率超过50%,但仍存在性能差距,表明LLM功能仍有提升空间。ArcMMLU填补了中文LIS领域LLM评估的空白,为未来定制该专门领域的LLM的发展铺平了道路。
谷歌CEO宣布Gemini 1.0上线,是一款强大的人工智能模型,能理解文本、图像、视频和音频,具有复杂多模态推理能力。Gemini是第一个在MMLU上超越人类专家的模型,性能优于大型语言模型。Gemini是原生多模态,能从底层无缝地理解和推理各种输入。Gemini能帮助发现隐藏信息,但不擅长写代码。Gemini可作为GPT4的平替。
本文介绍了开放式大型语言模型排行榜Open LLM Leaderboard中的一个评估标准——Massive Multitask Language Understanding(MMLU),以及该标准在不同实现中的差异。作者通过对三种不同实现的MMLU评估方法进行比较,发现它们给出的评估结果存在较大差异,甚至会改变模型在排行榜上的排名。作者指出,评估结果的差异与实现细节密切相关,因此开放、标准化、可重现的基准测试非常重要。最后,作者表示Open LLM Leaderboard将继续使用社区维护的评估库,并更新了MMLU的评估方法,以使其与原始实现相似。
完成下面两步后,将自动完成登录并继续当前操作。