小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《Agent评估新标准:用A2A+MCP协议实现基准即Agent》

《AgentBeats》论文提出了AAA(Agentified Agent Assessment)范式,通过将基准视为独立的Judge Agent,利用A2A协议和MCP工具实现评估标准化。在五个月的开放竞赛中,该框架成功协调298个Judge Agent对467个Subject Agent的评估,显著降低了集成复杂度,解决了传统评估方法的可扩展性和可复现性问题。

AI 范式雷达:《Agent评估新标准:用A2A+MCP协议实现基准即Agent》

Micropaper
Micropaper · 2026-06-13T00:00:00Z
教育直播SDK具备哪些功能?从能力清单看选型基准

选择教育直播SDK时,应关注功能的实际表现而非数量。功能可分为四层:音视频基础能力、教学交互工具、课堂管理与控制、云端配套服务。评估时需重视音视频质量、互动体验和质量监控,以确保SDK在真实教学场景中的有效性。

教育直播SDK具备哪些功能?从能力清单看选型基准

实时互动网
实时互动网 · 2026-06-10T10:07:41Z
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行

谷歌推出了Gemma 4 12B模型,旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半,但性能接近,支持本地运行,适合开发者使用。其统一架构可直接处理音频和图像输入,减少延迟和内存使用,吸引了开发者的关注。

谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行

The New Stack
The New Stack · 2026-06-04T19:30:19Z

Kaggle Benchmarks推出本地开发功能,允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务,旨在加速AI模型的评估和改进,推动可信赖的AI评估民主化。

Kaggle 使 AI 基准创建变得轻而易举

The Keyword
The Keyword · 2026-06-04T16:00:00Z
MySQL 9.7.0 PGO基准分析

本文讨论了MySQL的Profile-Guided Optimization(PGO)技术,强调其在性能上的显著提升。PGO通过运行时分析优化代码,使CPU更高效地执行MySQL的热代码路径,从而提高每秒处理事务的能力。测试结果显示,PGO在不同线程数下带来了0.5%到14.3%的性能提升,尤其在低并发情况下效果显著。

MySQL 9.7.0 PGO基准分析

Planet MySQL
Planet MySQL · 2026-05-22T07:33:49Z
腾讯开源 Hy-MT1.5 翻译模型:440MB 跑出顶级翻译能力;MIT 联合发布 MathNet:涵盖 2.7 万道奥数真题的多模态数学推理基准

腾讯推出的轻量级机器翻译模型Hy-MT1.5-1.8B-1.25bit,支持33种语言和1056个翻译方向,翻译效果超越部分大型开源模型。该模型参数仅18亿,用户可在线体验并访问HyperAI官网获取更多资源。

腾讯开源 Hy-MT1.5 翻译模型:440MB 跑出顶级翻译能力;MIT 联合发布 MathNet:涵盖 2.7 万道奥数真题的多模态数学推理基准

HyperAI超神经
HyperAI超神经 · 2026-05-18T04:28:41Z
大语言模型速度基准:指标与基础设施指南

本文讨论了大语言模型(LLM)推理速度的关键指标及其对用户体验的影响,强调选择合适模型和优化指标的重要性。介绍了TTFT、TTFAT、输出速度等六个性能指标,并提到语义缓存技术可以减少推理瓶颈,提高响应速度和降低成本。Redis作为实时数据平台,支持语义缓存和向量搜索,适合构建高效的GenAI应用。

大语言模型速度基准:指标与基础设施指南

Redis Blog
Redis Blog · 2026-05-10T00:00:00Z
谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案

谷歌DeepMind推出的「AI联合数学家」成功解决了Kourovka Notebook第21.10号问题,标志着数学研究的新突破。该系统通过人机协作,提升了解决数学难题的效率,强调持续互动与反馈,记录失败假设,帮助数学家更好地研究。在FrontierMath基准测试中,该系统取得了48%的准确率,超越了其他AI模型,展示了AI与数学家合作的潜力。

谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案

量子位
量子位 · 2026-05-09T07:12:48Z
从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

本文介绍了空间功能智能基准(SFI-Bench),用于评估多模态大语言模型的高级推理能力。SFI-Bench包含1700多个基于视频的问题,重点评估结构化空间推理和功能推理。实验结果显示,现有模型在整合空间记忆与功能知识方面存在瓶颈,强调了提升多模态智能代理的必要性。

从事物的位置到它们的用途:多模态大语言模型的空间–功能智能基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-06T00:00:00Z
提高`nvptx64-nvidia-cuda`目标的基准

Rust 1.97将于2026年7月9日发布,更新nvptx64-nvidia-cuda目标的PTX ISA版本,移除对2017年及之前GPU架构的支持。这将提升编译器的正确性和性能,但不再支持旧版CUDA驱动或低于7.0的GPU。

提高`nvptx64-nvidia-cuda`目标的基准

Rust Blog
Rust Blog · 2026-05-01T00:00:00Z
为智能体可信协作提供新方案 蚂蚁数科登顶以太坊全球基准评测

蚂蚁数科的零知识证明虚拟机zkDTVM在以太坊的EthProofs基准测试中将区块证明速度压缩至3.7秒,打破业界纪录,显示其区块链技术的全球领先地位。该技术支持智能体间的可信协作,满足高频交互需求。蚂蚁数科在区块链领域已有超过10年的研发积累,形成了完整的技术体系。

为智能体可信协作提供新方案 蚂蚁数科登顶以太坊全球基准评测

量子位
量子位 · 2026-04-30T07:27:07Z

hyperfine 是一个命令行基准测试工具,能够通过多次采样提供准确的执行时间统计。它支持对比多个命令、控制采样参数和预热运行,帮助用户获取稳定的性能数据。用户可以通过参数化测试轻松找到最佳参数设置,结果可导出为 Markdown 或 JSON 格式,便于分析和分享。

hyperfine:命令行基准测试工具

暗无天日
暗无天日 · 2026-04-25T00:00:00Z
大型语言模型能理解上下文吗?

大型语言模型(LLMs)在理解人类语言上下文方面表现优异。本文提出了一种上下文理解基准,包含四个任务和九个数据集,以评估模型的上下文理解能力。实验结果显示,预训练的密集模型在理解细微上下文特征上不及最新的微调模型,且量化模型在上下文学习中的表现也有所下降。

大型语言模型能理解上下文吗?

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-21T00:00:00Z

本文介绍了论文《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》,提出了Plan-RewardBench基准,专注于智能代理的轨迹级奖励建模。研究指出现有奖励模型在长期依赖性、推理质量和规划能力评估方面的不足,强调了从结果导向转向过程导向的重要性,为AI安全评估提供了新的视角和方法。

一分钟读论文:《轨迹级奖励建模基准:Agent 对齐新挑战》

Micropaper
Micropaper · 2026-04-18T00:00:00Z
实践中评估AI代理:基准、框架与经验教训

本文探讨了AI代理的评估方法,强调应将代理视为系统而非单一模型。传统的准确性指标无法全面反映代理在实际应用中的表现,评估应关注任务成功率、工具故障恢复能力和在真实环境中的一致性。提出了五个评估支柱:智能与准确性、性能与效率、可靠性与韧性、责任与治理、用户体验。有效评估需结合自动化评分与人工判断,以确保代理在生产环境中的可行性和安全性。

实践中评估AI代理:基准、框架与经验教训

InfoQ
InfoQ · 2026-03-16T11:00:00Z
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

量子位
量子位 · 2026-03-14T06:25:48Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

新研究提出“人类最后考试”(HLE),由近1000名专家设计2500道难题,以评估AI的深度理解能力。结果显示,当前AI表现不佳,预计到2025年可达到50%的准确率。HLE重新定义了AI评估标准,强调人类专业知识的独特性。

一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

Micropaper
Micropaper · 2026-03-04T00:00:00Z
AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

研究表明,尽管先进的AI模型在编码能力上有所提升,但在完全自主管理软件工程项目方面仍存在差距。我们开发了Stripe集成基准,以评估AI代理在构建完整Stripe集成中的表现。结果显示,模型在处理后端和全栈任务时表现出色,但在模糊任务中仍有困难。通过这些基准,我们希望提高AI在Stripe集成中的准确性和可靠性。

AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

Stripe Blog
Stripe Blog · 2026-03-02T00:00:00Z
AMUSE:用于代理多说话者理解的音视频基准与对齐框架

最近的多模态大语言模型(MLLMs)如GPT-4o和Qwen3-Omni在多说话者对话中表现不佳。为此,我们提出了AMUSE基准,以评估模型在复杂音视频交互中的推理能力,并引入RAFT框架,通过奖励优化和自我评估提升模型准确性,实现了39.52%的相对提升。

AMUSE:用于代理多说话者理解的音视频基准与对齐框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码