基准测试：优化性能与技术对比的全面指南 - 小红花·文摘 - 小红花技术领袖俱乐部

美国阿贡实验室提出ChemGraph，13项基准测试评估Agent在计算化学领域价值

美国阿贡实验室提出ChemGraph，13项基准测试评估Agent在计算化学领域价值

HyperAI超神经 ·

一分钟读论文：《MCPEvol-Bench：MCP服务器动态演化的LLM Agent性能基准测试》

一分钟读论文：《MCPEvol-Bench：MCP服务器动态演化的LLM Agent性能基准测试》

Micropaper ·

在Databricks的数百万行代码库上对编码代理进行基准测试

在Databricks的数百万行代码库上对编码代理进行基准测试

Databricks ·

GitHub Copilot如何实现GitHub Pages的零DNS配置

GitHub Copilot如何实现GitHub Pages的零DNS配置

The GitHub Blog ·

在编码评估中区分信号与噪声

在编码评估中区分信号与噪声

OpenAI ·

介绍Kotlin基准测试以评估AI编码代理

介绍Kotlin基准测试以评估AI编码代理

The JetBrains Blog ·

Qdrant在吞吐量上提高了2倍，延迟降低了50%，计算资源减少到1/3，超越了Elastic的DiskBBQ

Qdrant在吞吐量上提高了2倍，延迟降低了50%，计算资源减少到1/3，超越了Elastic的DiskBBQ

Qdrant - Vector Database ·

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

Micropaper ·

基准测试的意义差距

The JetBrains Blog ·

多伦多大学的论文《GameEngineBench》提出了针对游戏引擎开发的编码智能体基准测试，发现最强模型在真实C++编译下的通过率仅为55.5%。该测试涵盖110个复杂任务，强调现有评估标准无法反映大型C++项目的挑战，并指出智能体在跨模块开发中存在显著能力缺口。

一分钟读论文：《游戏引擎编码智能体基准测试》

Micropaper ·

本文讨论了在C语言中实现的UTF-8库及其在Perl中的应用。更新后的PerlIO::utf8_strict使用该库，但存在性能瓶颈。为此，作者实现了新的读取函数read_utf8，其速度比原有方法快7-16倍。文中提供了多个文本文件的基准测试结果，显示了read_utf8的优越性能。

以GB/s速度读取UTF-8

blogs.perl.org ·

Anthropic的Claude Sonnet 5系统卡比其基准测试更能揭示AI的未来

Anthropic的Claude Sonnet 5系统卡比其基准测试更能揭示AI的未来

The New Stack ·

AI 范式雷达：《Agent规划脆弱性——检索受限下大规模工具生态中的长期规划基准测试》

AI 范式雷达：《Agent规划脆弱性——检索受限下大规模工具生态中的长期规划基准测试》

Micropaper ·

一分钟读论文：《当工具失败时：LLM智能体的动态重规划与异常恢复基准测试》

一分钟读论文：《当工具失败时：LLM智能体的动态重规划与异常恢复基准测试》

Micropaper ·

在博弈论中，通才有时胜过专家

在博弈论中，通才有时胜过专家

MIT News - Artificial intelligence ·

刚刚，Fable-5之下，智谱开源的GLM-5.2拿下AI编程第一！

量子位 ·

LivePerson如何通过基准测试优化GCP上的Logstash和Kafka性能

LivePerson如何通过基准测试优化GCP上的Logstash和Kafka性能

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

Java微服务能否与Go一样快速？2026年基准测试更新

Java微服务能否与Go一样快速？2026年基准测试更新

insidejava ·

AI 范式雷达：《Agent安全新范式：从静态对齐到动态诊断护栏》

AI 范式雷达：《Agent安全新范式：从静态对齐到动态诊断护栏》

Micropaper ·

NVIDIA Blackwell在首个代理AI基础设施基准测试中领先

NVIDIA Blackwell在首个代理AI基础设施基准测试中领先

NVIDIA Blog ·