GPT-4o连验证码都解不了??SOTA模型成功率仅40%

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

MetaAgentX团队推出了Open CaptchaWorld平台,旨在评估多模态智能体在解验证码方面的能力。研究表明,尽管人类的成功率高达93.3%,但最先进的模型如GPT-4o的成功率仅为40%,显示出当前智能体在高交互场景中的不足。该平台旨在促进智能体在真实网页任务中的应用与发展。

🎯

关键要点

  • MetaAgentX团队推出Open CaptchaWorld平台,专注于评估多模态智能体解验证码的能力。
  • 人类解验证码的成功率高达93.3%,而最先进的模型如GPT-4o的成功率仅为40%。
  • 验证码是多模态智能体部署的一大瓶颈,尤其在电商、登录等高价值网页中普遍存在。
  • Open CaptchaWorld平台设计了20种现代验证码,旨在真实模拟Agent的交互任务。
  • 新评估指标CAPTCHA Reasoning Depth用于量化解题过程中的视觉理解、认知计划和动作控制。
  • 研究发现,许多先进Agent在CAPTCHA面前表现不佳,解题行为效率低下。
  • Open CaptchaWorld揭示了多模态Agent在真实交互任务中的成本-性能权衡关系。
  • 未来模型设计应关注效率与性能的协同优化,以提升Agent在现实网页任务中的表现。
  • Open CaptchaWorld鼓励研究者面对CAPTCHA问题,推动Agent的实际应用。

延伸问答

Open CaptchaWorld平台的主要目的是什么?

Open CaptchaWorld平台旨在评估多模态智能体在解验证码方面的能力。

人类解验证码的成功率是多少?

人类解验证码的成功率高达93.3%。

GPT-4o在解验证码方面的成功率是多少?

GPT-4o的成功率仅为40%。

Open CaptchaWorld平台设计了多少种现代验证码?

该平台设计了20种现代验证码。

CAPTCHA Reasoning Depth指标的作用是什么?

该指标用于量化解题过程中的视觉理解、认知计划和动作控制。

当前多模态Agent在CAPTCHA面前表现如何?

多数先进Agent在CAPTCHA面前表现不佳,成功率低且解题效率远不如人类。

➡️

继续阅读