小红花·文摘 - 小红花技术领袖俱乐部

通过Foundry，微软押注企业AI的竞争在于可靠性，而非能力

通过Foundry，微软押注企业AI的竞争在于可靠性，而非能力

The New Stack ·

【公益译文】2026年AI指数报告（三）

【公益译文】2026年AI指数报告（三）

绿盟科技技术博客 ·

谷歌DeepMind发布了一项新框架，旨在通过认知科学衡量人工通用智能（AGI）的进展。该框架识别了十种关键认知能力，并与Kaggle合作举办黑客马拉松，鼓励研究者设计评估工具，争夺20万美元奖金，评估内容涵盖学习、元认知和注意力等领域。

衡量人工通用智能（AGI）进展的认知框架

Google DeepMind Blog ·

人工通用智能（AGI）有望加速科学发现，但缺乏评估工具。新论文提出认知分类法，识别10种关键认知能力，并通过Kaggle黑客马拉松鼓励社区进行评估设计。这些能力包括学习、注意力和社交认知等。

朝向人工通用智能的进展测量：一个认知框架

The Keyword ·

Google Stax是一个评估大型语言模型（LLM）的开发工具，旨在帮助开发者根据自定义标准测试模型和提示。它解决了传统评估方法的局限性，支持多种模型并提供数据驱动的决策依据。通过定义成功标准和比较不同模型，Stax使AI评估更加系统化，帮助开发者构建符合用户需求的AI产品。

Google Stax：根据自定义标准测试模型和提示

KDnuggets ·

蚂蚁具身研究首次亮相！就解决了机器人「看」透明玻璃这些难题，还开源了

蚂蚁具身研究首次亮相！就解决了机器人「看」透明玻璃这些难题，还开源了

机器之心 ·

推出Agent Interop评估入门工具包

推出Agent Interop评估入门工具包

Microsoft 365 Developer Blog ·

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

合合信息多模态文本智能产品“上新”，覆盖AI教育、AI健康、AI Infra多元场景

机器之心 ·

DeepTeam - 一个针对大型语言模型和LLM系统的开源红队框架，…

DeepTeam - 一个针对大型语言模型和LLM系统的开源红队框架，…

云原生 ·

介绍Evalite：面向AI应用的TypeScript测试工具

介绍Evalite：面向AI应用的TypeScript测试工具

InfoQ ·

Ai2的Olmo 3推动开源大型语言模型性能的极限

Ai2的Olmo 3推动开源大型语言模型性能的极限

The New Stack ·

评估工具如何推动企业人工智能的下一个篇章

评估工具如何推动企业人工智能的下一个篇章

OpenAI ·

为AI代理准确性构建定制化的LLM评估者

为AI代理准确性构建定制化的LLM评估者

Databricks ·

AU-Harness：用于音频 LLM 整体评估的开源工具包

AU-Harness：用于音频 LLM 整体评估的开源工具包

实时互动网 ·

Meta AI推出的Audiobox-Aesthetics音频质量评估工具，通过四个核心维度对语音、音乐和环境声音进行自动化分析，弥补了传统人工评估的不足，为音频创作者和研究人员提供专业的量化分析。

音频美学评估新范式！Audiobox-Aesthetics 首创四维音频量化；670 万个案例！Caselaw 解锁法律参考的合规蓝本

HyperAI超神经 ·

SafeLine WAF与Cloudflare和ModSecurity的真实基准测试与数据

SafeLine WAF与Cloudflare和ModSecurity的真实基准测试与数据

DEV Community ·

本文研究了如何通过热门视频游戏评估大型语言模型（LLMs）的表现，指出直接将LLMs投入游戏无法有效评估。引入lmgame-Bench作为评估工具，通过统一API和感知、记忆支持，成功区分不同模型能力，并发现强化学习在单一游戏上的表现可迁移至其他游戏和任务。

lmgame-Bench: How Well Do Large Language Models Perform in Games?

BriefGPT - AI 论文速递 ·

本研究提出了一种基于用户反馈的强化学习框架（RLUF），旨在优化大型语言模型（LLMs）。实验结果显示，该方法显著提升了正向反馈率，并为用户行为评估提供了有效工具。

Reinforcement Learning Based on User Feedback

BriefGPT - AI 论文速递 ·

本研究提出了一种代理系统错误分类法，解决了代理工作流中复杂追踪评估不足的问题。通过建立148个大型人类注释的追踪数据集（TRAIL），揭示了现代长上下文语言模型在追踪调试中的缺陷，强调了开发有效评估工具的重要性。

TRAIL: Trace Reasoning and Autonomous Issue Localization

BriefGPT - AI 论文速递 ·

本研究提出了NorEval，一个针对挪威生成语言模型的评估工具，填补了挪威语言基准评估的空白。该工具包含24个高质量数据集，涵盖多种任务，并提供灵活可复现的评估框架，对19个开源模型进行了基准测试。

NorEval：挪威语言理解与生成评估基准

BriefGPT - AI 论文速递 ·