小红花·文摘

一分钟读论文：《SpecBench：面向软件工程 Agent 的规范级推理评估》

Micropaper ·

近年来，大语言模型（LLM）取得显著进展，但现有评估基准存在不足。为此，AI安全中心与Scale AI联合发布了多模态人类问题基准数据集HLE，包含2500个问题，旨在准确评估LLM能力，推动其在知识前沿领域的发展。

2.5k 个问题！HLE 突破性构建大语言模型精准评估体系；40 亿参数轻量级大语言模型 Jan-Nano，专为深度研究任务设计

HyperAI超神经 ·

本研究提出了个性化评估基准ToolSpectrum，解决了大型语言模型在工具选择中的上下文感知不足问题，强调个性化工具的使用能显著提升用户体验。

ToolSpectrum: A Personalized Tool Utilization Framework for Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Sadeed的小型语言模型，旨在解决阿拉伯语标点问题。Sadeed通过在高质量数据集上的微调，表现优越，超越传统模型，并引入新的评估基准SadeedDiac-25，推动阿拉伯语自然语言处理的发展。

Advancing Arabic Diacritization Through Small Language Models

BriefGPT - AI 论文速递 ·

本研究解决了大型语言模型和自主AI代理评估基准分类不统一的问题。通过比较约60个基准，展示了AI代理的实际应用与合作协议，发现集成大型语言模型与模块化工具包能提高自主决策和推理效率。

从大型语言模型推理到自主人工智能代理：综合评述

BriefGPT - AI 论文速递 ·

本研究探讨了现有心智理论基准在评估大型语言模型社交智能方面的局限性，提出了一种基于人机交互的动态方法，重新定义基准，以更好地反映用户的偏好和需求。研究表明，改进后的基准能提高对大型语言模型心智理论能力的评估准确性和实用性。

Rethinking User-Centered Benchmarks for Theory of Mind in LLMs

BriefGPT - AI 论文速递 ·

本研究提出了“误导性图表问答基准”，用于评估多模态大语言模型识别误导性图表的能力。结果表明，现有模型在识别视觉误导方面存在局限性，并提出了新方法以提高解读准确性，为理解误导性图表提供了基础。

Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering

BriefGPT - AI 论文速递 ·

本研究为商业地理信息系统从业者建立了大型语言模型（LLMs）在多步骤地理空间任务上的评估基准。评测结果显示，Sonnet 3.5和GPT-4o表现最佳，提供的开源基准和评估框架将推动GeoAI领域的标准化研究。

GeoBenchX：多步骤地理空间任务的大型语言模型基准评估

BriefGPT - AI 论文速递 ·

阿里巴巴与中国人民大学、上海交通大学联合推出WritingBench评估基准，涵盖六大领域和100个细分场景，旨在全面评估大模型的写作能力。该基准克服了现有评估的局限性，采用动态评估体系，提高了人类一致性得分。研究表明，思维链技术在创意写作中表现优异，但在效率型写作上效果有限。

OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

量子位 ·

本研究提出了新的评估基准CodeReviewQA，旨在解决大型语言模型在代码审查评论中的不足，通过分解任务来评估模型能力，揭示其理解上的弱点。

代码审查问答：针对大型语言模型的代码审查理解评估

BriefGPT - AI 论文速递 ·

本研究提出了新的评估基准ContextualJudgeBench，旨在解决当前大型语言模型（LLM）在上下文环境评估中的不足。该基准包含2000个挑战性响应对，模拟真实世界情境。研究表明，先进模型在处理上下文信息时仍面临显著挑战，强调了新评估方法对提升模型评估的重要性。

Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings

BriefGPT - AI 论文速递 ·

本研究提出WorldSense，这是首个评估多模态视频理解的基准，涵盖视觉、音频和文本输入。WorldSense包含1662个视频和3172个多项选择问答，显著提升了真实场景理解的评估质量，推动了多模态理解研究的发展。

WorldSense: Evaluating Real-World Omnimodal Understanding for Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了MedXpertQA，这是一个全面且具有挑战性的基准，用于评估专家级医学知识和高级推理能力。该基准涵盖4460个问题，涉及17个专业和11个身体系统，旨在填补现有评估的不足，对医学决策具有潜在影响。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

BriefGPT - AI 论文速递 ·

本研究提出了EmbodiedEval评估基准，包含328个任务和125个3D场景，增强了多模态大型语言模型的评估多样性，揭示其在具身任务上的不足之处。

Embodied Evaluation: Assessing Multimodal Large Language Models as Embodied Agents

BriefGPT - AI 论文速递 ·

本研究提出了Robin多尺度视觉-语言模型套件及CHIRP评估基准，旨在解决视觉-语言模型评估方法的不足。通过分析现有评估技术，提供开放资源，促进视觉-语言模型研究的可重复性和进展。

Robin: A Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark

BriefGPT - AI 论文速递 ·

通用多模态人工智能模型的出现

The New Stack ·

本研究探讨了在标签稀缺情况下处理不一致未标记数据的方法，以提升半监督学习性能。提出了一种新方法，增强了鲁棒性，并建立了评估基准，旨在解决开放环境中的稳定性问题。

开放环境下的鲁棒半监督学习

BriefGPT - AI 论文速递 ·

本研究系统调查了人工智能生成图像与自然图像之间的差异，提出了评估基准和包含44万个样本的多模态数据集DNAI。结果显示在多个维度上存在显著差异，强调结合定量指标与人类判断以全面理解AI生成图像质量的重要性。

ANID: How Far Are We? Evaluating the Differences Between AI-Synthesized Images and Natural Images through Multimodal Guidance

BriefGPT - AI 论文速递 ·

本研究提出了OmniEval评估基准，旨在解决大型语言模型在金融领域知识不足的问题。该基准通过多维度评估框架，结合自动生成与人工标注，提高评估准确性，全面反映RAG系统在不同金融主题和任务中的表现差异，推动模型能力提升。

OmniEval: An Omnidirectional Automatic Retrieval-Augmented Generation Evaluation Benchmark in the Financial Domain

BriefGPT - AI 论文速递 ·

本研究提出ExecRepoBench框架和Repo-Instruct指令语料库，旨在解决现有代码补全评估基准的不足，从而提升开源大型语言模型在复杂编码场景中的表现。

ExecRepoBench: A Multi-Level Evaluation Framework for Executable Code Completion

BriefGPT - AI 论文速递 ·