REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了REAL框架,用于评估自主智能体在11个常用网站的表现。通过112个实用任务,结果显示前沿语言模型的成功率最高仅为41%,揭示了自主网络导航和任务完成能力的不足。
🎯
关键要点
- 本研究提出了REAL框架,用于评估自主智能体在11个常用网站的表现。
- REAL框架包含高保真、确定性的11个广泛使用网站的复制品,涵盖电子商务、旅行、通信和专业网络等领域。
- 通过112个实用任务,该框架测试智能体在信息检索和状态变更中的表现。
- 实证结果显示,前沿语言模型的成功率最高仅为41%,揭示了自主网络导航和任务完成能力的不足。
➡️