抱歉,您提供的文本内容不足以进行总结。请提供更详细的文章内容。
本文探讨了重用预训练数据在测试中的有效性。研究表明,通过检索增强生成和测试时计算,模型在MMLU、Math-500和SimpleQA等任务上的准确性显著提高。在MMLU上,预训练结合检索的方式实现了约5倍的计算增益,进一步的测试时计算可提升10个百分点。这表明当前预训练方法未充分利用现有数据集的信息,仍有改进空间。
本研究提出了专为通用推理任务设计的检索器ReasonIR-8B,克服了现有检索器在推理任务中的局限性。通过合成数据生成,ReasonIR-8B在BRIGHT基准测试中取得了新成绩,显著提升了MMLU和GPQA的性能,展示了其优势和广泛适用性。
该研究提出了Mobile-MMLU,这是一个专为移动智能设计的大规模基准数据集,旨在评估大型语言模型在移动设备中的表现,重点关注推理延迟和能量消耗等关键指标,为移动计算环境中的智能应用提供标准化评估框架。
在快速发展的AI领域,Claude、GPT和Gemini是主要的大型语言模型。根据MMLU基准测试,GPT-4o以88.7%的得分领先,显示出卓越的知识和推理能力。Claude-3-Opus得分86.8%,GPT-4得分86.5%。选择模型时应根据项目需求考虑准确性、效率或多样性。
本研究提出了一种新颖的多样化指纹集成(DFPE)方法,旨在提升大型语言模型在复杂领域的性能。实验结果显示,DFPE在MMLU基准测试中的总体准确性比最佳单一模型提高了3%,在学科层面提升了5%。
本研究提出了MMLU-CF,一个无污染的多选题基准,旨在解决现有多选题数据集在评估大型语言模型时的污染问题。通过引入多样化的数据来源和去污染规则,MMLU-CF提高了评估结果的可信性,确保了模型评估的难度和真实性。
亚马逊与香港科技大学、圣母大学合作推出Shopping MMLU评测基准,旨在评估大语言模型在在线购物领域的能力。该基准涵盖57个任务,解决多任务性和少样本性问题,基于真实购物数据构建。研究表明,闭源模型优于开源模型,但后者逐渐缩小差距。Shopping MMLU为后续研究提供了重要参考,并已开源。
本文介绍了多个与电子商务相关的数据集和模型,如购物查询数据集、ECInstruct数据集和IntentionQA基准,强调大型语言模型(LLMs)在推荐系统中的优势。研究表明,LLMs在理解用户意图和提供个性化推荐方面表现出色,但仍面临输入敏感性和误解等挑战。整体来看,LLMs在电子商务领域具有巨大的潜力和应用前景。
该研究提出MMLU基准来测试大型语言模型的推理能力。MMLU涵盖多种任务,评估模型在多步推理、常识推理和因果理解上的表现。研究发现,尽管LLMs在语言生成上表现良好,但在复杂推理任务上仍有不足,需进一步研究以提升AI的推理能力。
滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了MMLU-Pro数据集,用于评估大语言模型的能力。该数据集包含来自多个来源的问题,旨在更严格地测试大型语言模型的功能。该数据集已在hyper.ai提供下载。
在大语言模型(LLM)发展的背景下,发布了MMLU-Pro数据集,以更严格地评估模型的语言理解能力。该数据集整合了多个来源的复杂问题,包含12K个跨学科问题,旨在推动AI在语言理解与推理方面的进步。
本文探讨了大型语言模型(LLMs)的能力与局限性,提出了新基准以评估其推理能力和问答性能。研究发现,LLMs在多项选择题和条件问答中对选项顺序敏感,并提出了改进策略。新基准如NPHardEval和MMLU-Pro旨在提高评估准确性,强调模型理解能力的重要性。
本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。
我们检测和分析了流行的大规模多任务语言理解(MMLU)基准测试中的错误,并发现大量的实际误差,使 LLM 的真实能力变得模糊。为了解决这个问题,我们引入了一个全面的框架来识别数据集错误,使用新的错误分类法创建了 MMLU-Redux,它是 30 个 MMLU 主题中,通过手动重新注释的 3,000 个子集问题。通过...
本文介绍了针对大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的基准测试,如CMMLU、ArcMMLU和KMMLU,评估其在不同领域的表现。研究表明,现有模型在准确性上仍有提升空间,特别是在复杂推理和领域专有知识方面。新基准的提出旨在推动模型的发展和改进。
评价基准在人工智能研讨中的重要性及其相关论文,如GLUE/SuperGLUE、MMLU、GSM8K、MATH和HumanEval。评价基准应具备样本数充足、高质量、易于理解、运转简便和有意义的特点。LLM模型评价较困难,人工成对评分和模型生成的评价是新方向。评价主题决定关注度,测验集污染问题可通过揭露和私有测验集平衡解决。评价反映个人身份,投资评价基准对AI研讨人员有益。
该研究介绍了ArcMMLU,一种为中文图书馆与信息科学领域定制的基准测试,旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。研究发现大多数主流LLM在ArcMMLU上的平均准确率超过50%,但仍存在性能差距,表明LLM功能仍有提升空间。ArcMMLU填补了中文LIS领域LLM评估的空白,为未来定制该专门领域的LLM的发展铺平了道路。
谷歌CEO宣布Gemini 1.0上线,是一款强大的人工智能模型,能理解文本、图像、视频和音频,具有复杂多模态推理能力。Gemini是第一个在MMLU上超越人类专家的模型,性能优于大型语言模型。Gemini是原生多模态,能从底层无缝地理解和推理各种输入。Gemini能帮助发现隐藏信息,但不擅长写代码。Gemini可作为GPT4的平替。
本文介绍了开放式大型语言模型排行榜Open LLM Leaderboard中的一个评估标准——Massive Multitask Language Understanding(MMLU),以及该标准在不同实现中的差异。作者通过对三种不同实现的MMLU评估方法进行比较,发现它们给出的评估结果存在较大差异,甚至会改变模型在排行榜上的排名。作者指出,评估结果的差异与实现细节密切相关,因此开放、标准化、可重现的基准测试非常重要。最后,作者表示Open LLM Leaderboard将继续使用社区维护的评估库,并更新了MMLU的评估方法,以使其与原始实现相似。
完成下面两步后,将自动完成登录并继续当前操作。