标签

 基准测试 

相关的文章:

本列表页汇集了关于基准测试的最新研究与应用,涵盖多模态模型、深度学习及数据库性能等领域,助您了解行业动态与技术进展。

图多尔·戈卢本科:对PlanetScale PostgreSQL基准测试的反应

Our reaction to the PostgreSQL benchmarks published by PlanetScale and the results of running them against a Xata instance.

几周前,PlanetScale发布了PostgreSQL私有测试版,并进行了基准测试。Xata的测试结果显示,其在TPCC基准上表现优于其他数据库,平均每秒处理25K查询,延迟更低。文章讨论了基准测试方法的局限性,并强调了Xata在存储与计算分离架构下的高性能和灵活性。

图多尔·戈卢本科:对PlanetScale PostgreSQL基准测试的反应
原文英文,约2100词,阅读约需8分钟。发表于:
阅读原文
发表于:
阅读原文

亚历山大·科罗特科夫:OrioleDB beta12:功能与基准测试

Since our last public update, OrioleDB has continued to evolve with a series of new releases. These updates refine the core engine, extend functionality, and improve performance across a range of...

OrioleDB持续优化核心引擎,提升性能,接近公测。作为PostgreSQL的存储扩展,OrioleDB解决了可扩展性瓶颈,支持多种索引类型和表空间,增强了兼容性和灵活性。基于TPC-C基准测试,OrioleDB在事务处理上表现优异,显著提高了吞吐量。

亚历山大·科罗特科夫:OrioleDB beta12:功能与基准测试
原文英文,约900词,阅读约需3分钟。发表于:
阅读原文

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪

While federated learning (FL) and differential privacy (DP) have been extensively studied, their application to automatic speech recognition (ASR) remains largely unexplored due to the challenges...

联邦学习(FL)与差分隐私(DP)在自动语音识别(ASR)中的应用尚待深入。本文通过逐层裁剪和梯度归一化技术,缓解了大模型在FL中面临的梯度异质性问题。实验结果表明,在强隐私保护下,FL与DP在用户规模达到数百万时是可行的,并且在不同规模下的字错误率有所改善。这为大模型的隐私保护FL算法设计提供了指导。

为语音识别启用差分隐私的联邦学习:基准测试、自适应优化器与梯度裁剪
原文英文,约300词,阅读约需2分钟。发表于:
阅读原文

Postgres基准测试

Benchmarking Postgres in a transparent, standardized and fair way is challenging. Here, we look at the process of how we did it in-depth

PlanetScale推出Postgres,并通过内部工具“Telescope”进行基准测试,确保数据库性能。在延迟、TPS和IOPS等方面,PlanetScale在与其他云Postgres提供商的比较中表现优异,展示了其卓越性能。

Postgres基准测试
原文英文,约1200词,阅读约需5分钟。发表于:
阅读原文

AMD公布线程撕裂者9000工作站处理器基准测试 全面领先于同级别英特尔至强

#硬件设备 AMD 公布线程撕裂者 9000 系列工作站处理器的基准测试,AMD 称其全面领先于同级别的英特尔至强处理器。9000 系列的旗舰款是 9995WX,这款处理器为 96 核心、192 线程,当然也有些配置稍微低些价格更便宜的 SKU,新系列处理器将从 7 月份开始上市销售。查看全文:https://ourl.co/109429

AMD发布线程撕裂者9000系列处理器基准测试,旗舰款9995WX拥有96核心和192线程,性能显著提升,预计7月上市,领先英特尔至强处理器。

AMD公布线程撕裂者9000工作站处理器基准测试 全面领先于同级别英特尔至强
原文中文,约1200字,阅读约需3分钟。发表于:
阅读原文

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1

The Agentica Project and Together AI have released DeepCoder-14B-Preview, an open source AI coding model based on Deepseek-R1-Distilled-Qwen-14B. The model achieves a 60.6% pass rate on...

Agentica项目与Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源AI编码模型。该模型在LiveCodeBench上的通过率为60.6%,超过了OpenAI的o1模型。开发团队通过强化学习优化了模型,并共享了数据集、代码和训练日志,旨在推动RL训练的民主化。DeepCoder在多个编码基准测试中表现优异,显著缩短了训练时间。

Agentica项目的开源DeepCoder模型在编码基准测试中超越了OpenAI的O1
原文英文,约600词,阅读约需3分钟。发表于:
阅读原文
发表于:
阅读原文

基准测试显示o3模型在降价80%后性能未下降 完全相同的模型只是价格大幅度下调

#人工智能 基准测试显示降价 80% 后的 OpenAI o3 模型在性能上与原始版本没有区别,OpenAI 并未通过替换模型来降价。OpenAI 回应开发者担忧价格下降的同时模型能力也下降,OpenAI 称通过优化服务堆栈降价,模型完全相同。独立基准测试社区 ARC Prize 经过测试后发现 o3 模型性能确实没有下降。查看全文:https://ourl.co/109324

OpenAI宣布o3模型价格下调80%,输入费用从10美元降至2美元,输出费用从40美元降至8美元。尽管开发者担心性能下降,OpenAI表示模型未变,仅优化了服务堆栈。独立测试证实o3性能与原版相同。新旗舰模型o3-pro仅限于ChatGPT Pro和Team用户,价格较高。

基准测试显示o3模型在降价80%后性能未下降 完全相同的模型只是价格大幅度下调
原文中文,约800字,阅读约需2分钟。发表于:
阅读原文

多智能体架构性能基准测试

By Will Fu-HinthornIn this blog, we explore a few common multi-agent architectures. We discuss both the motivations and constraints of different architectures. We benchmark their performance on a...

本文探讨了多智能体架构的动机与限制,基于Tau-bench数据集进行性能基准测试,并改进了“监督者”实现,性能提升近50%。多智能体系统有助于模块化设计、复杂任务处理及不同团队协作。尽管大多数架构为定制型,通用架构在易用性上也具优势。作者认为多智能体系统将日益普及。

多智能体架构性能基准测试
原文英文,约1700词,阅读约需7分钟。发表于:
阅读原文