GPT-4o连验证码都解不了??SOTA模型成功率仅40%
💡
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
MetaAgentX团队推出了Open CaptchaWorld平台,旨在评估多模态智能体在解验证码方面的能力。研究表明,尽管人类的成功率高达93.3%,但最先进的模型如GPT-4o的成功率仅为40%,显示出当前智能体在高交互场景中的不足。该平台旨在促进智能体在真实网页任务中的应用与发展。
🎯
关键要点
- MetaAgentX团队推出Open CaptchaWorld平台,专注于评估多模态智能体解验证码的能力。
- 人类解验证码的成功率高达93.3%,而最先进的模型如GPT-4o的成功率仅为40%。
- 验证码是多模态智能体部署的一大瓶颈,尤其在电商、登录等高价值网页中普遍存在。
- Open CaptchaWorld平台设计了20种现代验证码,旨在真实模拟Agent的交互任务。
- 新评估指标CAPTCHA Reasoning Depth用于量化解题过程中的视觉理解、认知计划和动作控制。
- 研究发现,许多先进Agent在CAPTCHA面前表现不佳,解题行为效率低下。
- Open CaptchaWorld揭示了多模态Agent在真实交互任务中的成本-性能权衡关系。
- 未来模型设计应关注效率与性能的协同优化,以提升Agent在现实网页任务中的表现。
- Open CaptchaWorld鼓励研究者面对CAPTCHA问题,推动Agent的实际应用。
❓
延伸问答
Open CaptchaWorld平台的主要目的是什么?
Open CaptchaWorld平台旨在评估多模态智能体在解验证码方面的能力。
人类解验证码的成功率是多少?
人类解验证码的成功率高达93.3%。
GPT-4o在解验证码方面的成功率是多少?
GPT-4o的成功率仅为40%。
Open CaptchaWorld平台设计了多少种现代验证码?
该平台设计了20种现代验证码。
CAPTCHA Reasoning Depth指标的作用是什么?
该指标用于量化解题过程中的视觉理解、认知计划和动作控制。
当前多模态Agent在CAPTCHA面前表现如何?
多数先进Agent在CAPTCHA面前表现不佳,成功率低且解题效率远不如人类。
➡️