标签

 基准测试 

相关的文章:

本列表汇集了关于基准测试的最新研究与分析,涵盖多模态大模型、处理器性能及AI技术的评估,助您了解行业动态与技术趋势。

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

While federated learning (FL) and differential privacy (DP) have been extensively studied, their application to automatic speech recognition (ASR) remains largely unexplored due to the challenges...

联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪
原文英文,约300词,阅读约需2分钟。发表于:
阅读原文

Postgres基准测试

Benchmarking Postgres in a transparent, standardized and fair way is challenging. Here, we look at the process of how we did it in-depth

PlanetScale推出Postgres,并通过内部工具“Telescope”进行基准测试,确保数据库性能。在延迟、TPS和IOPS等方面,PlanetScale在与其他云Postgres提供商的比较中表现优异,展示了其卓越性能。

Postgres基准测试
原文英文,约1200词,阅读约需5分钟。发表于:
阅读原文

AMD公布线程撕裂者9000工作站处理器基准测试 全面领先于同级别英特尔至强

#硬件设备 AMD 公布线程撕裂者 9000 系列工作站处理器的基准测试,AMD 称其全面领先于同级别的英特尔至强处理器。9000 系列的旗舰款是 9995WX,这款处理器为 96 核心、192 线程,当然也有些配置稍微低些价格更便宜的 SKU,新系列处理器将从 7 月份开始上市销售。查看全文:https://ourl.co/109429

AMD发布线程撕裂者9000系列处理器基准测试,旗舰款9995WX拥有96核心和192线程,性能显著提升,预计7月上市,领先英特尔至强处理器。

AMD公布线程撕裂者9000工作站处理器基准测试 全面领先于同级别英特尔至强
原文中文,约1200字,阅读约需3分钟。发表于:
阅读原文

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1

The Agentica Project and Together AI have released DeepCoder-14B-Preview, an open source AI coding model based on Deepseek-R1-Distilled-Qwen-14B. The model achieves a 60.6% pass rate on...

Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1
原文英文,约600词,阅读约需3分钟。发表于:
阅读原文
发表于:
阅读原文

基准测试显示o3模型在降价80%后性能未下降 完全相同的模型只是价格大幅度下调

#人工智能 基准测试显示降价 80% 后的 OpenAI o3 模型在性能上与原始版本没有区别,OpenAI 并未通过替换模型来降价。OpenAI 回应开发者担忧价格下降的同时模型能力也下降,OpenAI 称通过优化服务堆栈降价,模型完全相同。独立基准测试社区 ARC Prize 经过测试后发现 o3 模型性能确实没有下降。查看全文:https://ourl.co/109324

OpenAI宣布o3模型价格下调80%,输入费用从10美元降至2美元,输出费用从40美元降至8美元。尽管开发者担心性能下降,OpenAI表示模型未变,仅优化了服务堆栈。独立测试证实o3性能与原版相同。新旗舰模型o3-pro仅限于ChatGPT Pro和Team用户,价格较高。

基准测试显示o3模型在降价80%后性能未下降 完全相同的模型只是价格大幅度下调
原文中文,约800字,阅读约需2分钟。发表于:
阅读原文

多智能体架构性能基准测试

By Will Fu-HinthornIn this blog, we explore a few common multi-agent architectures. We discuss both the motivations and constraints of different architectures. We benchmark their performance on a...

本文探讨了多智能体架构的动机与限制,基于Tau-bench数据集进行性能基准测试,并改进了“监督者”实现,性能提升近50%。多智能体系统有助于模块化设计、复杂任务处理及不同团队协作。尽管大多数架构为定制型,通用架构在易用性上也具优势。作者认为多智能体系统将日益普及。

多智能体架构性能基准测试
原文英文,约1700词,阅读约需7分钟。发表于:
阅读原文

Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试

由 LLM 驱动的 AI 代理在处理复杂业务任务方面展现出巨大潜力,尤其是在客户关系管理 (CRM) 等领域。然而,由于缺乏公开可用的真实业务数据,评估其实际效果颇具挑战性。现有的...

由 LLM 驱动的 AI 代理在复杂业务任务中展现潜力,但评估存在挑战。现有基准测试主要集中于简单场景,缺乏对敏感信息的管理能力。Salesforce AI Research 推出的 CRMArena-Pro 基准测试真实评估 LLM 代理在客户服务和销售等领域的表现,包含多轮对话和保密意识测试。研究表明,顶级模型在单轮任务中的准确率约为 58%,而多轮对话降至 35%。

Salesforce AI 推出 CRMArena-Pro:首个面向 LLM 代理的多轮企业级基准测试
原文中文,约1700字,阅读约需4分钟。发表于:
阅读原文

托马斯·冯德拉:基准测试很困难,有时……

I do a fair number of benchmarks, not only to validate patches, but also to find interesting (suspicious) stuff to improve. It’s an important part of my development workflow. And it’s fun ;-) But...

基准测试中发现,使用pgbench进行只读操作时,客户端数量增加到22时吞吐量骤降,100个客户端时又恢复。分析排除了锁、CPU资源竞争和NUMA等因素,怀疑与内核任务调度有关。将进程固定到同一核心后,吞吐量显著提升,表明任务调度对性能影响显著。

托马斯·冯德拉:基准测试很困难,有时……
原文英文,约4000词,阅读约需15分钟。发表于:
阅读原文

SafeLine WAF与Cloudflare和ModSecurity的真实基准测试与数据

BlazeHTTP BlazeHTTP stands as a user-friendly WAF protection efficacy evaluation tool. 📦 Abundant Samples: Currently, a total of 33669 samples are available, with continuous updates in...

BlazeHTTP是一款用户友好的WAF保护评估工具,提供33669个样本,支持GUI和命令行,无需配置。它生成详细报告,评估检测率、误报率和准确性。与CloudFlare和ModSecurity比较,SafeLine在检测率和准确性上表现优异。

SafeLine WAF与Cloudflare和ModSecurity的真实基准测试与数据
原文英文,约600词,阅读约需3分钟。发表于:
阅读原文