小红花·文摘

Stripe introduces a benchmark suite to evaluate whether AI agents can build real-world Stripe integrations across backend, frontend, and browser-based checkout workflows. The study examines...

Stripe Benchmark Shows AI Agents Build Integrations but Struggle with Validation

InfoQ ·

iOS performance engineering often defaults to a mental model where performance is a property of a component. Performance is instead an emergent behavior of the interaction between application...

Article: Beyond the Benchmark: A Metrics-Driven Approach to Sustained iOS Performance on Real Devices

InfoQ ·

A 600-run benchmark by Ruby committer Yusuke Endoh tested Claude Code across 13 languages, implementing a simplified Git. Ruby, Python, and JavaScript were the fastest and cheapest, at $0.36-...

Dynamic Languages Faster and Cheaper in 13-Language Claude Code Benchmark

InfoQ ·

使用Kotlin笔记本更好地探索kotlinx-benchmark结果

The JetBrains Blog ·

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，帮助用户轻松获取所需数据。

多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！

机器之心 ·

我最近重构了一个用于Perl的多核基准测试框架，并将其作为独立模块发布。该模块支持自定义基准测试套件、生成并行工作负载，以及服务和API的吞吐量基准测试。通过Benchmark::MCE，可以在多个并行工作者上运行随机查询，以比较不同Cloud SQL数据库实例的性能。

CPAN上的Benchmark::MCE

blogs.perl.org ·

VLLM Benchmark 是一个测试模型性能的工具，支持多种推理后端。文章记录了模型服务和客户端的启动过程，并展示了使用随机输入和 ShareGPT 数据集进行性能测试的结果，包括请求成功率、生成的令牌数和延迟等指标。通过调整请求速率和输入长度，可以优化性能。

使用 VLLM Benchmark 进行模型性能测试

陈少文的博客 ·

英特尔Benchmark验证：忆联UH812a关键性能指标表现出色

全球TMT-美通国际 ·

蚂蚁团队推出的轻量级推理模型Ring-lite，采用C3PO强化学习方法，在多个推理榜单上取得了SOTA效果，显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异，展示了MoE架构的潜力。

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

量子位 ·

o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异，成为新的大模型基准测试，展示了强大的游戏能力。该测试基于Lmgame框架，未来将动态更新游戏关卡。

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位 ·

本研究创建了AJailBench，评估大型音频语言模型（LAMs）在越狱攻击下的安全性。结果表明，现有LAM在面对精心设计的音频攻击时存在明显脆弱性，强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了UWSAM模型和UIIS10K数据集，旨在解决水下实例分割中的技术不足。通过知识蒸馏和自动生成水下提示，显著提高了分割的准确性和效率，推动了水下视觉任务的发展。

UWSAM: Underwater Instance Segmentation Based on 'Segment Anything Model' and Its Large-scale Benchmark Dataset

BriefGPT - AI 论文速递 ·

本研究提出NOVA基准，用于评估模型在脑MRI异常定位和临床推理中的能力。NOVA包含约900个脑MRI扫描和281种罕见病理，结果显示主流模型在处理这些异常时性能显著下降，反映出其在分布外推广能力的不足。

NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

BriefGPT - AI 论文速递 ·

本研究提出了PersonaConvBench基准，旨在评估个性化推理与生成，解决个性化与对话结构的孤立问题。引入个性化历史显著提升了大型语言模型的性能，情感分类提升了198%。

Personalized Dialogue Benchmark: Towards Simulating Personalized Conversations

BriefGPT - AI 论文速递 ·

NavBench是一个专为机器人自主导航设计的基准测试平台，旨在克服现有平台的局限性。它通过标准化任务定义，实现跨平台评估，提升模拟到现实环境的转移性能，并支持自定义机器人和任务的加载，以促进适应性导航策略的发展。

NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation

BriefGPT - AI 论文速递 ·

本文提出了ViPlan基准，旨在比较符号规划与视觉语言模型（VLM）在视觉规划中的表现。研究评估了九个开源VLM模型，结果显示符号规划在某些任务中优于VLM，而在其他任务中则相反，揭示了该领域的复杂性和模型的局限性。

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了MatPredict数据集，旨在从相机图像中识别室内物体的材料属性，推动消费机器人在室内物体感知方面的进步。

MatPredict: A Dataset and Benchmark for Learning Material Properties of Diverse Indoor Objects

BriefGPT - AI 论文速递 ·

本研究提出了FedRS数据集，填补了遥感领域真实联邦数据集的空白。该数据集通过135个客户端反映真实场景，实验结果表明联邦学习显著提升了模型性能，为大规模研究提供了标准化测试平台。

FedRS-Bench: A Realistic Federated Learning Dataset and Benchmark for Remote Sensing

BriefGPT - AI 论文速递 ·

本文解决了在线广告竞标策略优化中数据集和标准基准不足的问题，提出了涵盖两种常见拍卖格式的新基准，并研究了实时竞标中的预算均匀性和每次点击成本的优化。

Automated Bidding Task Benchmark: BAT

BriefGPT - AI 论文速递 ·