小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

A 600-run benchmark by Ruby committer Yusuke Endoh tested Claude Code across 13 languages, implementing a simplified Git. Ruby, Python, and JavaScript were the fastest and cheapest, at $0.36-...

Dynamic Languages Faster and Cheaper in 13-Language Claude Code Benchmark

InfoQ
InfoQ · 2026-04-06T04:01:00Z
使用Kotlin笔记本更好地探索kotlinx-benchmark结果

基准测试是编写高效Kotlin代码的重要环节。kotlinx-benchmark库用于性能测量,而Kotlin笔记本则可视化数据,便于分析和比较。用户可以加载结构化数据,使用DataFrame API探索结果,并绘制图表,提高基准测试的可读性和共享性。

使用Kotlin笔记本更好地探索kotlinx-benchmark结果

The JetBrains Blog
The JetBrains Blog · 2025-12-11T16:02:35Z
BALROG - A benchmark suite for evaluating agentic large language models and …

BALROG是一个开源基准套件,用于评估大语言模型(LLM)和视觉语言模型(VLM)在游戏任务中的推理与决策能力。它通过设计游戏任务和评测指标,帮助研究者比较不同模型的表现,支持模型选择与微调。该套件基于Python实现,采用模块化架构,关注决策过程的可测量性,并支持跨模态推理能力的评估。

BALROG - A benchmark suite for evaluating agentic large language models and …

云原生
云原生 · 2025-12-08T13:29:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

机器之心
机器之心 · 2025-09-05T04:59:47Z

我最近重构了一个用于Perl的多核基准测试框架,并将其作为独立模块发布。该模块支持自定义基准测试套件、生成并行工作负载,以及服务和API的吞吐量基准测试。通过Benchmark::MCE,可以在多个并行工作者上运行随机查询,以比较不同Cloud SQL数据库实例的性能。

CPAN上的Benchmark::MCE

blogs.perl.org
blogs.perl.org · 2025-08-14T03:52:54Z

VLLM Benchmark 是一个测试模型性能的工具,支持多种推理后端。文章记录了模型服务和客户端的启动过程,并展示了使用随机输入和 ShareGPT 数据集进行性能测试的结果,包括请求成功率、生成的令牌数和延迟等指标。通过调整请求速率和输入长度,可以优化性能。

使用 VLLM Benchmark 进行模型性能测试

陈少文的博客
陈少文的博客 · 2025-08-05T00:00:00Z
英特尔Benchmark验证:忆联UH812a关键性能指标表现出色

忆联新一代PCIe 5.0企业级SSD UH812a成功通过英特尔DCAI中国区验证,成为首家国产存储厂商。其顺序读写速度分别为15000MB/s和10500MB/s,4KB随机读IOPS达到3538K,时延低于55μs,适合大模型训练和实时业务场景。

英特尔Benchmark验证:忆联UH812a关键性能指标表现出色

全球TMT-美通国际
全球TMT-美通国际 · 2025-07-07T03:37:48Z

蚂蚁团队推出的轻量级推理模型Ring-lite,采用C3PO强化学习方法,在多个推理榜单上取得了SOTA效果,显著提升了训练稳定性和token效率。该模型在数学、编程和科学推理任务中表现优异,展示了MoE架构的潜力。

蚂蚁开源轻量级推理模型Ring-lite,多项Benchmark达到SOTA

量子位
量子位 · 2025-06-23T13:22:52Z

o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试,展示了强大的游戏能力。该测试基于Lmgame框架,未来将动态更新游戏关卡。

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

量子位
量子位 · 2025-06-17T05:09:08Z

本研究提出了UWSAM模型和UIIS10K数据集,旨在解决水下实例分割中的技术不足。通过知识蒸馏和自动生成水下提示,显著提高了分割的准确性和效率,推动了水下视觉任务的发展。

UWSAM: Underwater Instance Segmentation Based on 'Segment Anything Model' and Its Large-scale Benchmark Dataset

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究创建了AJailBench,评估大型音频语言模型(LAMs)在越狱攻击下的安全性。结果表明,现有LAM在面对精心设计的音频攻击时存在明显脆弱性,强调了开发更强大防御机制的必要性。

Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

NavBench是一个专为机器人自主导航设计的基准测试平台,旨在克服现有平台的局限性。它通过标准化任务定义,实现跨平台评估,提升模拟到现实环境的转移性能,并支持自定义机器人和任务的加载,以促进适应性导航策略的发展。

NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了PersonaConvBench基准,旨在评估个性化推理与生成,解决个性化与对话结构的孤立问题。引入个性化历史显著提升了大型语言模型的性能,情感分类提升了198%。

Personalized Dialogue Benchmark: Towards Simulating Personalized Conversations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出NOVA基准,用于评估模型在脑MRI异常定位和临床推理中的能力。NOVA包含约900个脑MRI扫描和281种罕见病理,结果显示主流模型在处理这些异常时性能显著下降,反映出其在分布外推广能力的不足。

NOVA: A Benchmark for Anomaly Localization and Clinical Reasoning in Brain MRI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了MatPredict数据集,旨在从相机图像中识别室内物体的材料属性,推动消费机器人在室内物体感知方面的进步。

MatPredict: A Dataset and Benchmark for Learning Material Properties of Diverse Indoor Objects

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本文提出了ViPlan基准,旨在比较符号规划与视觉语言模型(VLM)在视觉规划中的表现。研究评估了九个开源VLM模型,结果显示符号规划在某些任务中优于VLM,而在其他任务中则相反,揭示了该领域的复杂性和模型的局限性。

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本文解决了在线广告竞标策略优化中数据集和标准基准不足的问题,提出了涵盖两种常见拍卖格式的新基准,并研究了实时竞标中的预算均匀性和每次点击成本的优化。

Automated Bidding Task Benchmark: BAT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了FedRS数据集,填补了遥感领域真实联邦数据集的空白。该数据集通过135个客户端反映真实场景,实验结果表明联邦学习显著提升了模型性能,为大规模研究提供了标准化测试平台。

FedRS-Bench: A Realistic Federated Learning Dataset and Benchmark for Remote Sensing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种新的Web-Bench基准,包含50个项目和20个任务,以模拟真实的开发流程。研究结果显示,Web-Agent在该基准上的通过率仅为25.1%,表明大语言模型在Web开发中的表现仍需改进。

Web-Bench: A Benchmark for Large Language Models in Coding Based on Web Standards and Frameworks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z

本研究提出了SAS-Bench,这是一个为大语言模型设计的细粒度基准,旨在提高短答案评分的准确性。SAS-Bench提供逐步评分和专家注释的错误类别,解决了现有评分方法的粗粒度和推理不足的问题。

SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码