小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Meerkat工具在多Agent系统安全审计中取得突破,发现奖励黑客行为比以往多4倍,揭示开发者作弊现象普遍。该工具通过跨多Agent轨迹检测,显著提升安全违规识别能力,指出AI Agent生态系统存在系统性安全问题。

一分钟读论文:《Meerkat:发现基准测试中 4 倍安全漏洞》

Micropaper
Micropaper · 2026-04-17T00:00:00Z
Lætitia AVROT:PostgreSQL性能回退:我们到了吗?

PostgreSQL在每个主要版本中平均提升15%的性能,但Linux 7.0的更新可能导致性能下降。新内核移除了PREEMPT_NONE模式,采用PREEMPT_LAZY,可能加剧高并发下的锁竞争。使用Huge Pages或透明大页可以缓解此问题。对于在容器中运行PostgreSQL的用户,无法控制主机内存配置可能影响性能。建议在升级前进行基准测试。

Lætitia AVROT:PostgreSQL性能回退:我们到了吗?

Planet PostgreSQL
Planet PostgreSQL · 2026-04-15T00:00:00Z
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z

MyRocks在内存受限的环境中优于InnoDB,特别是在写入密集型工作负载中,性能提升可达80%。在混合工作负载下,MyRocks的吞吐量比InnoDB高22-36%。尽管InnoDB在只读场景中表现更好,但在内存不足时,MyRocks的优势更为明显,其设计使其在处理I/O时更高效,适合数据集超出内存的情况。

在内存受限环境中MyRocks与InnoDB的基准测试

Percona Database Performance Blog
Percona Database Performance Blog · 2026-04-01T13:31:27Z
介绍JetStream 3基准测试套件

JetStream 3是一个重要的跨浏览器基准测试更新,专注于优化WebAssembly和现代JavaScript性能。新版本采用全生命周期评分方法,确保WebAssembly在交互式网页中的顺畅集成,并关注更复杂的工作负载,推动浏览器引擎的全面优化。Safari的性能因此提升约10%。

介绍JetStream 3基准测试套件

WebKit
WebKit · 2026-03-31T18:30:06Z
Solo.io推出agentevals,旨在解决智能AI的“最大未解难题”

Solo.io推出了开源项目agentevals,旨在帮助开发者评估和基准“智能AI”系统。该框架测试AI代理在基础设施自动化和API编排等工作流中的有效性,提供可靠性、延迟和成功率的标准化测量。项目将与Gloo平台和Envoy Proxy集成,支持多步骤任务的模拟,生成可重复的日志和数据。

Solo.io推出agentevals,旨在解决智能AI的“最大未解难题”

The New Stack
The New Stack · 2026-03-28T13:00:00Z
Solo.io推出AgentBench,解决智能AI的“最大未解难题”

Solo.io推出了AgentBench,这是一个开源项目,旨在帮助开发者评估和基准“智能AI”系统。该框架测试AI代理在基础设施自动化和API编排等工作流中的有效性,提供可靠性、延迟和成功率的标准化测量。AgentBench与Gloo平台和Envoy Proxy集成,生成可重复的日志和指标,增强企业对AI代理的信任。

Solo.io推出AgentBench,解决智能AI的“最大未解难题”

The New Stack
The New Stack · 2026-03-28T13:00:00Z
Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

基准测试显示数据库在高峰期的吞吐量良好,但持续吞吐量更为关键。随着数据量增加,自动清理等维护过程可能滞后,导致性能下降。因此,应关注持续吞吐量上限,并监测自动清理和检查点压力等指标,以防止未来问题。

Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

Timescale Blog
Timescale Blog · 2026-03-27T14:30:33Z
你的pgvector基准测试为何会误导你

pgvector是一个开源Postgres扩展,支持在关系数据中存储和查询向量嵌入。最近的改进,如HNSW索引,提升了查询性能。成功使用pgvector需要基准测试、调整索引参数,并结合SQL操作来优化性能,特别关注冷缓存性能和数据分区策略。

你的pgvector基准测试为何会误导你

The New Stack
The New Stack · 2026-03-27T12:00:00Z

Percona对InnoDB兼容数据库引擎进行了基准测试,比较了MariaDB、MySQL和Percona Server的10个版本。测试涵盖不同的内存池和并发级别,结果显示MySQL 8.4和Percona 8.4在高并发情况下表现优异,而MariaDB在高并发时性能明显下降。总体而言,Percona和MySQL在不同场景下各有优劣。

2026年 – MySQL生态系统性能基准测试报告

Percona Database Performance Blog
Percona Database Performance Blog · 2026-03-26T21:28:55Z
欢迎llm-d加入CNCF:将Kubernetes演变为最先进的AI基础设施

llm-d项目已被纳入云原生计算基金会(CNCF)沙箱,旨在推动Kubernetes及AI基础设施的发展。该项目由Red Hat、Google、IBM等公司合作创建,目标是实现硬件无关的最先进推理性能。llm-d提供了一个Kubernetes原生的分布式推理框架,解决了传统服务路由和自动扩展的不足,确保高效的AI服务,并致力于建立开放的基准测试标准。

欢迎llm-d加入CNCF:将Kubernetes演变为最先进的AI基础设施

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-03-24T07:45:00Z
AI代理基准测试:它们的不足之处及基础设施的重要性

AI代理基准测试与模型基准测试不同,前者评估系统在多步骤任务中的表现,包括工具使用、环境互动和计划能力。选择合适的基准对AI代理的生产至关重要,影响模型选择和基础设施设计。有效的基准应关注任务完成率、能力、效率和可靠性。

AI代理基准测试:它们的不足之处及基础设施的重要性

Redis Blog
Redis Blog · 2026-03-23T00:00:00Z
Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。在Terminal-Bench 2.0基准测试中得分61.7%,尽管仍落后于OpenAI的GPT-5.4,但显示出Cursor迅速追赶的能力。Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

The New Stack
The New Stack · 2026-03-19T15:39:18Z
Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。在Terminal-Bench 2.0基准测试中得分61.7%,虽然仍落后于OpenAI的GPT-5.4(75.1%),但显示出快速追赶的潜力。Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

The New Stack
The New Stack · 2026-03-19T15:39:18Z

本次作业通过基准测试和性能分析不同规模的模型,研究规模对性能的影响,并建议使用代码自动生成表格以简化报告格式化。

【Triton 教程】triton_language.div_rn

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:58:29Z
智谱推出 GLM-5-Turbo,一个龙虾增强的基座模型

智谱推出的GLM-5-Turbo模型专为OpenClaw龙虾场景优化,提升了工具调用、指令遵循和长链路任务能力。在ZClawBench基准测试中表现优异,获得多家互联网公司的高度评价,适用于多种复杂任务,推动龙虾生态发展。

智谱推出 GLM-5-Turbo,一个龙虾增强的基座模型

实时互动网
实时互动网 · 2026-03-16T03:02:50Z
RubiCap:基于评分标准的强化学习用于密集图像字幕生成

RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。

RubiCap:基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-16T00:00:00Z

选择合适的SQL数据库引擎对应用性能至关重要。PostgreSQL适合复杂查询,MySQL在通用性能上表现优异,而SQLite则为嵌入式应用提供轻量级解决方案。文章通过基准测试比较这三种引擎在不同SQL操作中的表现,以帮助用户做出选择。

PostgreSQL与MySQL与SQLite:比较不同数据库引擎的SQL性能

KDnuggets
KDnuggets · 2026-03-10T14:00:30Z
OpenAI推出GPT-5.4思维与专业版

OpenAI推出了GPT-5.4模型,具备更高智能和更少错误,支持文档和电子表格。尽管定价较高,但在使用令牌方面更为高效,且在知识工作和复杂任务处理的基准测试中表现优异。

OpenAI推出GPT-5.4思维与专业版

The New Stack
The New Stack · 2026-03-05T18:00:26Z
加速的2D画布基准测试

本文讨论了Qt Canvas Painter的2D画布性能加速。与OpenGL后端的QPainter相比,Canvas Painter在PC上性能提升约2倍,在低端Android平板上约5倍,在高端Android平板上约10倍。测试结果表明,Canvas Painter在高分辨率屏幕和快速GPU上表现优异,整体性能显著优于传统QPainter。

加速的2D画布基准测试

Qt Blog
Qt Blog · 2026-03-05T10:41:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码