量子位 ·

GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

Q: 人类解验证码的成功率是多少？

人类解验证码的成功率高达93.3%。

Q: Open CaptchaWorld平台设计了多少种现代验证码？

该平台设计了20种现代验证码。

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

MetaAgentX团队推出了Open CaptchaWorld平台，旨在评估多模态智能体在解验证码方面的能力。研究表明，尽管人类的成功率高达93.3%，但最先进的模型如GPT-4o的成功率仅为40%，显示出当前智能体在高交互场景中的不足。该平台旨在促进智能体在真实网页任务中的应用与发展。

🎯

关键要点

MetaAgentX团队推出Open CaptchaWorld平台，专注于评估多模态智能体解验证码的能力。
人类解验证码的成功率高达93.3%，而最先进的模型如GPT-4o的成功率仅为40%。
验证码是多模态智能体部署的一大瓶颈，尤其在电商、登录等高价值网页中普遍存在。
Open CaptchaWorld平台设计了20种现代验证码，旨在真实模拟Agent的交互任务。
新评估指标CAPTCHA Reasoning Depth用于量化解题过程中的视觉理解、认知计划和动作控制。
研究发现，许多先进Agent在CAPTCHA面前表现不佳，解题行为效率低下。
Open CaptchaWorld揭示了多模态Agent在真实交互任务中的成本-性能权衡关系。
未来模型设计应关注效率与性能的协同优化，以提升Agent在现实网页任务中的表现。
Open CaptchaWorld鼓励研究者面对CAPTCHA问题，推动Agent的实际应用。

🔎

延伸解读

多模态智能体的瓶颈

验证码的存在使得多模态智能体在实际应用中面临重大挑战。尽管这些智能体在静态任务中表现良好，但在需要动态交互的场景中，验证码成为了一个不可忽视的障碍。Open CaptchaWorld平台的推出，正是为了填补这一空白，帮助研究者更好地理解和解决这一问题。

CAPTCHA解题能力的评估

Open CaptchaWorld平台引入了新的评估指标——CAPTCHA Reasoning Depth，旨在量化解题过程中的视觉理解和认知计划。这一指标的引入，不仅提升了对智能体解题能力的评估深度，也为未来的模型设计提供了新的方向，强调了在复杂任务中对智能体能力的全面考量。

成本与性能的权衡

研究显示，当前多模态智能体在解题成功率与运行成本之间存在明显的权衡关系。虽然一些模型在成功率上表现突出，但其高昂的成本却限制了实际应用的可行性。这一发现提示开发者在设计新模型时，需更加关注效率与性能的平衡，以提升智能体的实用性。

❓

延伸问答

Open CaptchaWorld平台的主要目的是什么？

Open CaptchaWorld平台旨在评估多模态智能体在解验证码方面的能力。

人类解验证码的成功率是多少？

人类解验证码的成功率高达93.3%。

GPT-4o在解验证码方面的成功率是多少？

GPT-4o的成功率仅为40%。

Open CaptchaWorld平台设计了多少种现代验证码？