小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
为智能体可信协作提供新方案 蚂蚁数科登顶以太坊全球基准评测

蚂蚁数科的零知识证明虚拟机zkDTVM在以太坊的EthProofs基准测试中将区块证明速度压缩至3.7秒,打破业界纪录,显示其区块链技术的全球领先地位。该技术支持智能体间的可信协作,满足高频交互需求。蚂蚁数科在区块链领域已有超过10年的研发积累,形成了完整的技术体系。

为智能体可信协作提供新方案 蚂蚁数科登顶以太坊全球基准评测

量子位
量子位 · 2026-04-30T07:27:07Z

测一个命令要跑多久,大多数人第一反应是 =time= : #+begin_src shell time find /usr/share/doc -maxdepth 2 -name "*.txt" #+end_src #+begin_example real 0m0.012s user 0m0.004s sys 0m0.007s #+end_example 但跑第二次,结果可能变成...

hyperfine:命令行基准测试工具

暗无天日
暗无天日 · 2026-04-25T00:00:00Z
大型语言模型能理解上下文吗?

大型语言模型(LLMs)在理解人类语言上下文方面表现优异。本文提出了一种上下文理解基准,包含四个任务和九个数据集,以评估模型的上下文理解能力。实验结果显示,预训练的密集模型在理解细微上下文特征上不及最新的微调模型,且量化模型在上下文学习中的表现也有所下降。

大型语言模型能理解上下文吗?

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-21T00:00:00Z

本文介绍了论文《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》,提出了Plan-RewardBench基准,专注于智能代理的轨迹级奖励建模。研究指出现有奖励模型在长期依赖性、推理质量和规划能力评估方面的不足,强调了从结果导向转向过程导向的重要性,为AI安全评估提供了新的视角和方法。

一分钟读论文:《轨迹级奖励建模基准:Agent 对齐新挑战》

Micropaper
Micropaper · 2026-04-18T00:00:00Z
实践中评估AI代理:基准、框架与经验教训

本文探讨了AI代理的评估方法,强调应将代理视为系统而非单一模型。传统的准确性指标无法全面反映代理在实际应用中的表现,评估应关注任务成功率、工具故障恢复能力和在真实环境中的一致性。提出了五个评估支柱:智能与准确性、性能与效率、可靠性与韧性、责任与治理、用户体验。有效评估需结合自动化评分与人工判断,以确保代理在生产环境中的可行性和安全性。

实践中评估AI代理:基准、框架与经验教训

InfoQ
InfoQ · 2026-03-16T11:00:00Z
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

量子位
量子位 · 2026-03-14T06:25:48Z
MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具,克服了单一模型在复杂场景中的局限,支持高保真语音、对话和实时交互,适用于多种语言和风格切换。

MOSS-TTS:基于 CAT 架构的解耦式生产级语音生成模型;打破单细胞分析壁垒:Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准

HyperAI超神经
HyperAI超神经 · 2026-03-06T06:01:17Z
一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

新研究提出“人类最后考试”(HLE),由近1000名专家设计2500道难题,以评估AI的深度理解能力。结果显示,当前AI表现不佳,预计到2025年可达到50%的准确率。HLE重新定义了AI评估标准,强调人类专业知识的独特性。

一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》

Micropaper
Micropaper · 2026-03-04T00:00:00Z
AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

研究表明,尽管先进的AI模型在编码能力上有所提升,但在完全自主管理软件工程项目方面仍存在差距。我们开发了Stripe集成基准,以评估AI代理在构建完整Stripe集成中的表现。结果显示,模型在处理后端和全栈任务时表现出色,但在模糊任务中仍有困难。通过这些基准,我们希望提高AI在Stripe集成中的准确性和可靠性。

AI代理能否构建真实的Stripe集成?我们开发了一个基准来验证这一点

Stripe Blog
Stripe Blog · 2026-03-02T00:00:00Z
AMUSE:用于代理多说话者理解的音视频基准与对齐框架

最近的多模态大语言模型(MLLMs)如GPT-4o和Qwen3-Omni在多说话者对话中表现不佳。为此,我们提出了AMUSE基准,以评估模型在复杂音视频交互中的推理能力,并引入RAFT框架,通过奖励优化和自我评估提升模型准确性,实现了39.52%的相对提升。

AMUSE:用于代理多说话者理解的音视频基准与对齐框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
Hugging Face推出透明模型基准评估的Community Evals

Hugging Face推出Community Evals功能,允许在Hub上创建基准数据集排行榜并自动收集评估结果。该系统基于Git基础设施,确保提交的透明性、可版本化和可重复性。用户可通过拉取请求提交评估结果,提升评估的一致性和可追溯性,目前处于测试阶段。

Hugging Face推出透明模型基准评估的Community Evals

InfoQ
InfoQ · 2026-02-19T10:55:00Z
如何构建生产就绪的Genie空间,并在此过程中建立信任

本文探讨了通过建立基准提升Genie空间准确性的方法,以支持营销分析。通过明确数据命名、定义关系和自定义指标,逐步增强系统信任度,最终实现100%基准准确率,确保用户能依赖生成的SQL查询做出决策。

如何构建生产就绪的Genie空间,并在此过程中建立信任

Databricks
Databricks · 2026-02-06T23:10:00Z
寻找金融领域的ImageNet——首个信贷多模态评测基准背后的产业与学术对话

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

寻找金融领域的ImageNet——首个信贷多模态评测基准背后的产业与学术对话

机器之心
机器之心 · 2026-02-06T06:01:00Z
ICLR 2026 | U2-BENCH:首个超大规模全场景超声多模态理解基准,开启医疗大模型新赛道

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更详细的文章内容。

ICLR 2026 | U2-BENCH:首个超大规模全场景超声多模态理解基准,开启医疗大模型新赛道

机器之心
机器之心 · 2026-02-04T06:32:00Z
苹果推出AirTag 2 采用新款超宽带芯片支持基准定位 扬声器音量提升50%

苹果推出升级版 AirTag 2,配备 UWB 2 超宽带芯片和改进的蓝牙芯片,支持精准定位和更高音量,方便用户在嘈杂环境中寻找设备。外观与旧款相似,兼容 Apple Watch S9 及后续机型,售价249元。

苹果推出AirTag 2 采用新款超宽带芯片支持基准定位 扬声器音量提升50%

蓝点网
蓝点网 · 2026-01-27T00:35:28Z

Kaggle推出社区基准,允许全球AI社区设计和分享自定义基准,以评估AI模型。这一举措旨在提供灵活、透明的评估框架,适应AI能力的快速发展。用户可以创建任务并组合成基准,以比较不同模型的性能,推动AI评估的未来。

在Kaggle上推出社区基准

The Keyword
The Keyword · 2026-01-14T14:00:00Z
现实基准工作负载的重要性

本文分析了MongoDB分片集群的性能,介绍了Percona Load Generator(PLGM)作为基准测试工具。测试不同工作负载下的并发阈值和吞吐量,发现最佳并发为32至64线程,超过此范围性能下降。通过优化配置,最大吞吐量提升至约17,328 Ops/Sec,显著降低延迟,表明数据库不再是主要瓶颈。

现实基准工作负载的重要性

Percona Database Performance Blog
Percona Database Performance Blog · 2026-01-14T12:35:05Z
发布FACTS基准套件以评估大型语言模型的事实准确性

FACTS基准套件发布,旨在系统评估大型语言模型的事实准确性。该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估,新增参数、搜索和多模态三个基准,共包含3513个示例,评估模型在不同场景下的准确性。Gemini 3 Pro模型得分最高,但整体准确率未超过70%。该基准旨在支持研究,提供共享的事实可靠性参考。

发布FACTS基准套件以评估大型语言模型的事实准确性

InfoQ
InfoQ · 2026-01-12T07:55:00Z
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

机器之心
机器之心 · 2026-01-10T12:56:25Z
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

机器之心
机器之心 · 2026-01-06T09:50:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码