InfoQ ·

微软开源Evals for Agent Interop工具包，以基准测试企业AI代理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

微软推出了开源工具包Evals for Agent Interop，旨在帮助开发者评估AI代理在数字工作场景中的互操作性。该工具包提供场景、数据集和评估框架，系统性地评估AI代理在企业工作流中的表现，尤其是在复杂任务和应用集成方面。开发者可进行定制化测试，以提升代理的性能和可靠性。

🎯

❓

该工具包帮助开发者评估AI代理在数字工作场景中的互操作性，提供场景、数据集和评估框架。

开发者可以从GitHub克隆工具包，运行评估场景并定制测试以反映其工作流。

最初专注于电子邮件和日历交互场景，未来将扩展更多评分能力和支持更广泛的代理工作流。

工具包引入了排行榜概念，提供不同代理的比较洞察，帮助组织识别失败模式。

评估框架不仅测量最终结果，还关注行为模式、上下文意识和多步骤任务的韧性。

该工具包以Docker compose的形式部署，方便开发者在本地执行。

🏷️

Anthropic推出MCP隧道和自托管沙箱，以加强AI代理基础设施的安全性
Anthropic在伦敦的开发者大会上宣布了Claude Managed Agents的新功能，包括自托管沙箱和MCP隧道的公测。这些更新旨在提升AI软件...
Pulumi押注基础设施的下一个十年属于AI代理
Pulumi公司推出新功能，支持“代理基础设施时代”。AI代理已驱动20%的操作，未来可能达到100%。新推出的Pulumi Cloud账户允许代理自助创...
第735期：代理架构、Python的奇妙之处、3.15版本及更多（2026年5月19日）
本文讨论了代理架构和上下文工程的局限性，特别是文件驱动的代理工作流程在处理大上下文窗口时面临的挑战。Mikiko Bazeley分享了在AI代理开发中采用的新方法和工具。
被 Antigravity 2.0 强制更新后，我默默换回了 IDE 版本
今天，Antigravity 软件更新至 2.0，核心功能由「AI IDE」转变为「Agent 工作平台」，强调多 Agent 协作和企业工作流。但存在代...
谷歌推出自己的OpenClaw：Gemini Spark
谷歌推出了AI代理平台Gemini Spark，能够24小时后台运行，处理邮件和监控订阅等任务。该平台基于Gemini 3.5 Flash模型，支持与Wo...
我们对2026年Google I/O大会的反应
在2026年Google I/O大会上，Google推出了新服务Spark，旨在提升AI的实用性。大会讨论了AI代理、搜索功能的演变及内容认证工具的扩展。...