小红花·文摘

AI代理能否构建真实的Stripe集成？我们开发了一个基准来验证这一点

Stripe Blog ·

介绍Spring AI Agents和Spring AI Bench

Spring ·

本研究探讨了大型语言模型基准评估中的内在随机性问题，提出了一种层次统计模型，以提高基准分数的准确性并减少方差。同时，引入基于正确率的提示级别难度评分，以增强错误检测和质量控制。

Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis

BriefGPT - AI 论文速递 ·

本研究分析了人工智能基准评估方法的不足，涵盖约100项研究，揭示了量化基准在能力、安全和风险评估中的局限性。强调基准设计中的细节问题及社会技术相关的缺陷，呼吁提升AI基准的问责性和相关性，以应对现实世界的复杂性。

Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation

BriefGPT - AI 论文速递 ·

本研究解决了方法名称与实现不一致的问题，导致程序理解和维护混淆。通过新基准评估深度学习方法，发现其在真实场景中的表现不如预期，并指出了需改进的关键问题。

Identifying Inconsistent Method Names Based on Deep Learning: How Far Are We from Our Goal?

BriefGPT - AI 论文速递 ·

本研究提出了ECBench，这是一个高质量的基准，旨在系统评估大型视觉语言模型（LVLMs）的具身认知能力。ECBench通过多样的场景视频和开放问答格式，推动LVLMs的认知能力提升，为具身代理模型的开发奠定基础。

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Benchmark for Embodied Cognition

BriefGPT - AI 论文速递 ·

本研究提出了Bench-CoE框架，旨在提升大语言模型在多任务处理中的能力。通过基准评估促进专家协作，显著提高了任务性能，实验结果表明该框架在语言和多模态任务上优于单一模型，为后续研究奠定了基础。

Bench-CoE: A Framework for Expert Benchmark Collaboration

BriefGPT - AI 论文速递 ·

Epoch AI推出FrontierMath：测试AI数学推理能力的新前沿

InfoQ ·

本研究解决了资产信息与数据分类系统对接的难题，提出了一种基准评估方法，比较了文本嵌入模型的有效性，并强调了领域适应技术的进一步研究需求，同时发布了开源评估资源。

基于预训练文本嵌入模型对构建资产信息的对齐基准评估

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型在图上进行多步骤推理的挑战，提出了新的基准来评估其在经典算法任务中的表现，发现提示技术和算法指令仍需改进以增强推理能力。

Are Large Language Models Graph Algorithm Reasoners?

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过上下文学习将大语言模型（LLMs）基准评估中的任务数量减少至原来的5%。该方法高效且无需训练，显著节省时间和资源，同时保证评估质量。

BenTo: Benchmark Task Reduction through In-Context Transferability

BriefGPT - AI 论文速递 ·

MLE-bench：评估机器学习代理在机器学习工程中的表现

OpenAI ·

本研究提出了MANTRA数据集，旨在解决复杂系统中高阶交互作用建模的数据匮乏问题。该数据集适用于高阶模型的基准评估，研究表明基于单纯复形的神经网络在捕捉简单拓扑不变量方面优于基于图的模型，但仍面临挑战，为拓扑深度学习提供了新思路。

MANTRA: 流形三角剖分集合

BriefGPT - AI 论文速递 ·

本文提出了一个新的基准，用于评估多模态大型语言模型在解谜方面的表现，包含333个图像类文字游戏示例。研究发现，尽管GPT-4V和Gemini Pro表现优异，但准确率仅为24%，显示出推理能力的不足。该基准旨在识别模型在知识和推理方面的缺陷，并强调需要新的策略和数据集以提升解谜能力。

非言辞而事物：大型语言模型在意大利谜画中的弱解能力

BriefGPT - AI 论文速递 ·

本研究探讨了多种深度学习方法在图像异常检测中的应用，包括无监督异常检测、混合概率分布和多尺度对比学习网络。通过建立正常图像模型和优化算法，显著提高了检测性能，尤其在医学成像和工业应用中表现出色。研究还提出了统一的基准评估，比较了多种异常检测方法，明确了未来研究方向。

在工业图像异常检测模型中通过正常性检测实现正常性增强

BriefGPT - AI 论文速递 ·

最近，大型语言模型（LLMs）在任务自动化和数据分析领域取得了一定进展。为评估其能力，研究引入了TaskBench和BIBench基准，涵盖任务分解和工具调用等方面。实验结果显示，LLMs在复杂编程任务和科学问题解决中表现不佳，强调了改进的必要性。这些基准旨在推动LLMs在实际应用中的发展。

DiscoveryBench：基于大型语言模型的数据驱动发现

BriefGPT - AI 论文速递 ·

本文研究了预训练视觉语言模型在医学图像中的应用，强调医学提示语设计的重要性。通过共享表达属性提示，提升了模型的泛化能力和新对象识别能力。研究提出了多种自动生成医学提示的方法，显著提高了零样本性能，并构建了医学视觉语言基准以评估效果。

MoVL: 探索预训练模型在医学图像任务中的领域自适应应用的融合策略

BriefGPT - AI 论文速递 ·

本文提出了一种统一基准评估框架，用于评估动态点去除技术，涵盖多种先进方法和新颖度量。研究包括基于立体输入的稠密建图算法、边界信息处理、新的环境表示内存模块和在线背景消除方法，旨在提高动态环境下的鲁棒性和准确性。实验结果表明，该方法在性能上优于现有技术。

BeautyMap：二进制编码的适应性地面矩阵用于全局地图中的动态点剔除

BriefGPT - AI 论文速递 ·

该文提出了一种用于多知识库问答的新任务，并构建了多样化的基准来评估性能。通过将链接关系编码到知识库嵌入中，提出了一种用于多知识库问答的方法，实验结果表明其优于传统的知识库问答系统。

两者皆胜：通过多个知识源与普适链接答复复杂问题

BriefGPT - AI 论文速递 ·