《AgentBeats》论文提出了AAA(Agentified Agent Assessment)范式,通过将基准视为独立的Judge Agent,利用A2A协议和MCP工具实现评估标准化。在五个月的开放竞赛中,该框架成功协调298个Judge Agent对467个Subject Agent的评估,显著降低了集成复杂度,解决了传统评估方法的可扩展性和可复现性问题。
完成下面两步后,将自动完成登录并继续当前操作。