小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MySQL性能:OpenSSL-3.5.5评估

本文评估了OpenSSL-3.5.5在MySQL CPU密集型OLTP工作负载下的性能,重点分析了SSL开启与关闭对性能的显著影响。测试使用Sysbench进行Point-SELECTs和Re-Connect SELECTs,结果显示不同OpenSSL版本之间的性能差异。

MySQL性能:OpenSSL-3.5.5评估

Planet MySQL
Planet MySQL · 2026-04-22T04:50:00Z

Apache TVM 更新至 0.21.0 版本,中文文档已同步。TVM 是一个深度学习编译框架,支持多种硬件加速。文章探讨了张量函数转换过程中的性能评估和循环分块等优化技术,展示了如何通过调度和转换提升计算效率。

【TVM教程】转换

HyperAI超神经
HyperAI超神经 · 2026-03-18T08:57:33Z
Quesma发布OTelBench以评估OpenTelemetry基础设施和AI性能

Quesma推出了OTelBench,这是一个开源基准测试工具,用于评估OpenTelemetry管道的性能和AI代理的有效性。该工具提供可验证的数据,帮助平台工程师应对现代云监控的复杂性。OTelBench模拟不同流量模式,测量关键性能指标,帮助团队在生产前验证硬件需求和配置。同时,该项目评估AI代理在数据分辨率与系统开销之间的权衡,发现现有模型在实际应用中的表现不足。基准测试保持中立,支持多种开源后端,减少基础设施变更的手动验证工作。

Quesma发布OTelBench以评估OpenTelemetry基础设施和AI性能

InfoQ
InfoQ · 2026-02-24T08:00:00Z
模型发布背后:客户在早期测试Claude Opus 4.6时发现了什么

在新Claude模型发布前,少数客户提前测试并评估其性能,反馈直接影响最终版本。测试显示模型在多个任务上表现优异且更具自主性,坦诚的反馈帮助Anthropic改进模型,客户与开发者共同塑造未来工具。

模型发布背后:客户在早期测试Claude Opus 4.6时发现了什么

Claude
Claude · 2026-02-09T00:00:00Z
代理评估:如何测试和衡量代理人工智能的性能

本文探讨了评估代理人工智能系统性能的方法,强调与传统语言模型评估的区别。评估框架包括任务成功、工具使用质量、推理一致性和成本效益四个维度。有效评估需建立黄金数据集,并结合自动化、人工和混合评估方法,以确保代理在实际应用中的可靠性。

代理评估:如何测试和衡量代理人工智能的性能

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-05T14:16:39Z
Various Types of Panels for Linux Servers

Linux服务器面板如Cockpit和Webmin等安装包众多,但复杂功能未能满足用户需求。用户希望通过面板评估VPS的安全性和性能,但此类需求较小众,主要由特定人群使用。

Various Types of Panels for Linux Servers

Est's Blog
Est's Blog · 2026-01-20T13:46:00Z
第717期:单元测试性能、光标、递归匹配及更多(2026年1月13日)

测试代码性能不仅要确保正确性,还需评估性能。通过分析数据规模增长时的性能变化(即大O标度)来进行评估。

第717期:单元测试性能、光标、递归匹配及更多(2026年1月13日)

PyCoder’s Weekly
PyCoder’s Weekly · 2026-01-13T19:30:00Z
MANZANO:一个简单且可扩展的统一多模态模型,采用混合视觉标记器

Manzano是一个简单且可扩展的统一多模态模型框架,结合了混合图像标记器和优化的训练方法,能够有效理解和生成视觉内容。该模型通过共享的视觉编码器和轻量适配器,实现图像到文本和文本到图像的连续嵌入,尤其在文本丰富的评估中表现突出。

MANZANO:一个简单且可扩展的统一多模态模型,采用混合视觉标记器

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-11T00:00:00Z
超越应用层的基准测试:Uber如何评估基础设施变更和云SKU

Uber推出了Ceilometer,一个内部自适应基准框架,用于评估基础设施性能。该系统自动化基准测试,提供一致的数据驱动性能信号,帮助识别性能回归和配置低效。Ceilometer支持多种工作负载类型,并计划集成AI以优化资源和检测异常,从而提升基础设施决策效率。

超越应用层的基准测试:Uber如何评估基础设施变更和云SKU

InfoQ
InfoQ · 2025-12-26T15:00:00Z

本文介绍了 ping 命令的原理、结构、常用选项及高级用法,帮助用户进行网络故障排查和性能评估。ping 通过发送 ICMP 数据包测试设备连通性,是开发者和运维工程师的重要工具。

Linux 网络诊断利器:ping 命令完全指南

极客技术博客’s Blog
极客技术博客’s Blog · 2025-11-22T10:00:10Z

我们对一家金融科技客户的跨境支付系统进行了性能评估,发现P99延迟高达300ms。通过OpenResty XRay分析,识别出Lua代码中的性能瓶颈并提出优化建议,最终将P99延迟降低并节约30% CPU成本。客户计划将性能分析集成到CI/CD流程中,以主动防范性能问题。

我们如何在一个 500k QPS 的 OpenResty 网关中定位 244 毫秒的性能异常

OpenResty 官方博客
OpenResty 官方博客 · 2025-11-18T00:00:00Z
大型语言模型(LLM)评估的最佳实践与方法

随着企业对大型语言模型(LLMs)的依赖加深,评估其性能变得至关重要。评估确保生成的响应准确、连贯,并防止偏见和错误信息。评估方法包括量化和质性指标,利用多样化的数据集和评估框架,以提升LLM的可靠性和效率。

大型语言模型(LLM)评估的最佳实践与方法

Databricks
Databricks · 2025-10-28T17:20:18Z

JDK 25发布,性能较JDK 21显著提升,应用代码运行更快。文章讨论了13项具体改进,包括新特性Stable Value预览,结合可变和不可变字段的优势。同时强调了设计考虑、开发者反馈的重要性及性能评估方法。

从JDK 21到JDK 25 - Java性能更新2025

insidejava
insidejava · 2025-10-18T00:00:00Z
EncQA:基于视觉编码的图表视觉语言模型基准评估

EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。

EncQA:基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z
Agent设计模式——第 19 章:评估和监控

本章讨论智能代理的性能评估方法,包括监控目标进展、异常检测和反馈循环。重点在实时系统的性能跟踪、A/B 测试、合规审计和行为异常检测。通过定义指标和实施报告系统,确保代理在操作环境中的有效性和合规性。

Agent设计模式——第 19 章:评估和监控

XINDOO的博客
XINDOO的博客 · 2025-10-04T16:00:16Z

RAGAS是一个新兴的评估框架,旨在客观全面地评估大语言模型(LLM)和检索增强生成(RAG)系统的性能。它通过模块化设计和多样的评估指标,提供智能测试集生成和高效的工程支持,推动评估方法的革新,提升AI系统的质量和可信度,促进技术创新与应用。

RAGAS深度解析:引领RAG评估新时代的开源技术革命

dotNET跨平台
dotNET跨平台 · 2025-09-22T00:01:43Z
使用决策树理解文本

本文介绍了使用决策树模型进行文本分类,特别是垃圾邮件检测。通过TF-IDF和词嵌入等文本表示技术,构建决策树并评估其性能。与朴素贝叶斯分类器相比,决策树在识别垃圾邮件方面表现更佳,尽管可能存在信息损失。最终,结合TF-IDF的决策树模型在召回率上优于其他模型。

使用决策树理解文本

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-12T12:00:24Z
引导长上下文语言模型的上下文检索与推理

近期长上下文语言模型(LCLMs)的进展有望简化检索增强生成(RAG)流程。LCLMs能够直接处理知识库进行检索和推理。本文提出了ICR2基准,以更真实地评估LCLMs的性能,并提出了提升LCLM性能的方法,包括检索后生成微调和联合训练检索头与生成头。通过对四个LCLMs的广泛基准测试,我们的方法在多个任务上显著优于现有模型。

引导长上下文语言模型的上下文检索与推理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-12T00:00:00Z
LWiAI播客第218期 - GitHub Spark、MegaScience、美国AI行动计划

GitHub推出Vibe Coding与Spark,利用自然语言和视觉控制开发全栈应用。美国发布AI行动计划,强调经济、技术和政策策略以保持AI技术领导地位。同时,MegaScience和SWE-Perf数据集评估AI在科学和软件工程任务中的推理与性能能力。

LWiAI播客第218期 - GitHub Spark、MegaScience、美国AI行动计划

Last Week in AI
Last Week in AI · 2025-07-31T16:14:30Z
机器学习中的精确率与召回率

精确率和召回率是评估分类模型性能的关键指标。精确率衡量预测为正的项目中正确的比例,适用于垃圾邮件检测和医疗诊断;召回率衡量实际正例的识别数量,适用于疾病和欺诈检测。两者共同优化模型的准确性和覆盖率。

机器学习中的精确率与召回率

DEV Community
DEV Community · 2025-05-24T06:03:03Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码