小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Lætitia AVROT:PostgreSQL性能回退:我们到了吗?

PostgreSQL在每个主要版本中平均提升15%的性能,但Linux 7.0的更新可能导致性能下降。新内核移除了PREEMPT_NONE模式,采用PREEMPT_LAZY,可能加剧高并发下的锁竞争。使用Huge Pages或透明大页可以缓解此问题。对于在容器中运行PostgreSQL的用户,无法控制主机内存配置可能影响性能。建议在升级前进行基准测试。

Lætitia AVROT:PostgreSQL性能回退:我们到了吗?

Planet PostgreSQL
Planet PostgreSQL · 2026-04-15T00:00:00Z
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z

MyRocks在内存受限的环境中优于InnoDB,特别是在写入密集型工作负载中,性能提升可达80%。在混合工作负载下,MyRocks的吞吐量比InnoDB高22-36%。尽管InnoDB在只读场景中表现更好,但在内存不足时,MyRocks的优势更为明显,其设计使其在处理I/O时更高效,适合数据集超出内存的情况。

在内存受限环境中MyRocks与InnoDB的基准测试

Percona Database Performance Blog
Percona Database Performance Blog · 2026-04-01T13:31:27Z
介绍JetStream 3基准测试套件

JetStream 3是一个重要的跨浏览器基准测试更新,专注于优化WebAssembly和现代JavaScript性能。新版本采用全生命周期评分方法,确保WebAssembly在交互式网页中的顺畅集成,并关注更复杂的工作负载,推动浏览器引擎的全面优化。Safari的性能因此提升约10%。

介绍JetStream 3基准测试套件

WebKit
WebKit · 2026-03-31T18:30:06Z
Solo.io推出agentevals,旨在解决智能AI的“最大未解难题”

Solo.io推出了开源项目agentevals,旨在帮助开发者评估和基准“智能AI”系统。该框架测试AI代理在基础设施自动化和API编排等工作流中的有效性,提供可靠性、延迟和成功率的标准化测量。项目将与Gloo平台和Envoy Proxy集成,支持多步骤任务的模拟,生成可重复的日志和数据。

Solo.io推出agentevals,旨在解决智能AI的“最大未解难题”

The New Stack
The New Stack · 2026-03-28T13:00:00Z
Solo.io推出AgentBench,解决智能AI的“最大未解难题”

Solo.io推出了AgentBench,这是一个开源项目,旨在帮助开发者评估和基准“智能AI”系统。该框架测试AI代理在基础设施自动化和API编排等工作流中的有效性,提供可靠性、延迟和成功率的标准化测量。AgentBench与Gloo平台和Envoy Proxy集成,生成可重复的日志和指标,增强企业对AI代理的信任。

Solo.io推出AgentBench,解决智能AI的“最大未解难题”

The New Stack
The New Stack · 2026-03-28T13:00:00Z
Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

基准测试显示数据库在高峰期的吞吐量良好,但持续吞吐量更为关键。随着数据量增加,自动清理等维护过程可能滞后,导致性能下降。因此,应关注持续吞吐量上限,并监测自动清理和检查点压力等指标,以防止未来问题。

Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

Timescale Blog
Timescale Blog · 2026-03-27T14:30:33Z
你的pgvector基准测试为何会误导你

pgvector是一个开源Postgres扩展,支持在关系数据中存储和查询向量嵌入。最近的改进,如HNSW索引,提升了查询性能。成功使用pgvector需要基准测试、调整索引参数,并结合SQL操作来优化性能,特别关注冷缓存性能和数据分区策略。

你的pgvector基准测试为何会误导你

The New Stack
The New Stack · 2026-03-27T12:00:00Z

Percona对InnoDB兼容数据库引擎进行了基准测试,比较了MariaDB、MySQL和Percona Server的10个版本。测试涵盖不同的内存池和并发级别,结果显示MySQL 8.4和Percona 8.4在高并发情况下表现优异,而MariaDB在高并发时性能明显下降。总体而言,Percona和MySQL在不同场景下各有优劣。

2026年 – MySQL生态系统性能基准测试报告

Percona Database Performance Blog
Percona Database Performance Blog · 2026-03-26T21:28:55Z
欢迎llm-d加入CNCF:将Kubernetes演变为最先进的AI基础设施

llm-d项目已被纳入云原生计算基金会(CNCF)沙箱,旨在推动Kubernetes及AI基础设施的发展。该项目由Red Hat、Google、IBM等公司合作创建,目标是实现硬件无关的最先进推理性能。llm-d提供了一个Kubernetes原生的分布式推理框架,解决了传统服务路由和自动扩展的不足,确保高效的AI服务,并致力于建立开放的基准测试标准。

欢迎llm-d加入CNCF:将Kubernetes演变为最先进的AI基础设施

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-03-24T07:45:00Z
AI代理基准测试:它们的不足之处及基础设施的重要性

AI代理基准测试与模型基准测试不同,前者评估系统在多步骤任务中的表现,包括工具使用、环境互动和计划能力。选择合适的基准对AI代理的生产至关重要,影响模型选择和基础设施设计。有效的基准应关注任务完成率、能力、效率和可靠性。

AI代理基准测试:它们的不足之处及基础设施的重要性

Redis Blog
Redis Blog · 2026-03-23T00:00:00Z
Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。在Terminal-Bench 2.0基准测试中得分61.7%,虽然仍落后于OpenAI的GPT-5.4(75.1%),但显示出快速追赶的潜力。Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

The New Stack
The New Stack · 2026-03-19T15:39:18Z
Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

Cursor公司发布了Composer 2,这是其第三代编码模型,性能超越Anthropic的Opus 4.6,成本更低。在Terminal-Bench 2.0基准测试中得分61.7%,尽管仍落后于OpenAI的GPT-5.4,但显示出Cursor迅速追赶的能力。Composer 2采用自我总结的训练技术,显著提高了长任务表现,减少了50%的压缩错误。

Cursor的Composer 2在编码基准测试中超越Opus 4.6,成本却低得多

The New Stack
The New Stack · 2026-03-19T15:39:18Z

本次作业通过基准测试和性能分析不同规模的模型,研究规模对性能的影响,并建议使用代码自动生成表格以简化报告格式化。

【Triton 教程】triton_language.div_rn

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:58:29Z
智谱推出 GLM-5-Turbo,一个龙虾增强的基座模型

智谱推出的GLM-5-Turbo模型专为OpenClaw龙虾场景优化,提升了工具调用、指令遵循和长链路任务能力。在ZClawBench基准测试中表现优异,获得多家互联网公司的高度评价,适用于多种复杂任务,推动龙虾生态发展。

智谱推出 GLM-5-Turbo,一个龙虾增强的基座模型

实时互动网
实时互动网 · 2026-03-16T03:02:50Z
RubiCap:基于评分标准的强化学习用于密集图像字幕生成

RubiCap是一种新型强化学习框架,通过大型语言模型生成细致的奖励信号,有效解决图像字幕生成中的多样性和泛化问题。在CapArena和CaptionQA基准测试中表现优异,超越传统方法和人类专家注释。

RubiCap:基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-16T00:00:00Z

选择合适的SQL数据库引擎对应用性能至关重要。PostgreSQL适合复杂查询,MySQL在通用性能上表现优异,而SQLite则为嵌入式应用提供轻量级解决方案。文章通过基准测试比较这三种引擎在不同SQL操作中的表现,以帮助用户做出选择。

PostgreSQL与MySQL与SQLite:比较不同数据库引擎的SQL性能

KDnuggets
KDnuggets · 2026-03-10T14:00:30Z
OpenAI推出GPT-5.4思维与专业版

OpenAI推出了GPT-5.4模型,具备更高智能和更少错误,支持文档和电子表格。尽管定价较高,但在使用令牌方面更为高效,且在知识工作和复杂任务处理的基准测试中表现优异。

OpenAI推出GPT-5.4思维与专业版

The New Stack
The New Stack · 2026-03-05T18:00:26Z
加速的2D画布基准测试

本文讨论了Qt Canvas Painter的2D画布性能加速。与OpenGL后端的QPainter相比,Canvas Painter在PC上性能提升约2倍,在低端Android平板上约5倍,在高端Android平板上约10倍。测试结果表明,Canvas Painter在高分辨率屏幕和快速GPU上表现优异,整体性能显著优于传统QPainter。

加速的2D画布基准测试

Qt Blog
Qt Blog · 2026-03-05T10:41:06Z
绩效改进计划 — 稳固的融合

2026年3月4日,GPT-4o-mini因评分不足被纳入绩效改进计划(PIP)。在Claude的指导和工具改进下,模型在基准测试中获得满分10/10。文章强调了清晰指令和宽容工具对提升模型表现的重要性,以及同理心在管理中的价值。

绩效改进计划 — 稳固的融合

Lifelog — A Mythology-Driven Devlog
Lifelog — A Mythology-Driven Devlog · 2026-03-04T21:05:23Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码