量子位 ·

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

UniPat AI发布的SaaS-Bench评测显示，主流AI模型在真实办公任务中的通过率仅为3.8%。这些模型在处理复杂跨应用任务时表现不佳，无法稳定完成实习生的日常工作。评测指出AI在长流程工作中的四大缺陷：任务越长越难、错误传播、缺乏自我检查和执行不稳定。未来软件需重新设计以适应AI的操作需求。

🎯

关键要点

UniPat AI发布的SaaS-Bench评测显示，主流AI模型在真实办公任务中的通过率仅为3.8%。
AI在处理复杂跨应用任务时表现不佳，无法稳定完成实习生的日常工作。
评测指出AI在长流程工作中的四大缺陷：任务越长越难、错误传播、缺乏自我检查和执行不稳定。
SaaS-Bench通过真实系统的测试，揭示了Agent在真实工作环境中的不足。
大多数任务是跨应用和长流程的，任务难度分析显示Agent的执行能力有限。
四种结构性失败模式表明Agent缺乏对持久状态的有效推理能力和闭环验证机制。
未来软件需重新设计以适应AI的操作需求，当前的SaaS界面可能需要为Agent重做。

🔎

延伸解读

AI模型的局限性

SaaS-Bench评测揭示了主流AI模型在真实办公任务中的显著不足，尤其是在处理复杂的跨应用任务时。尽管这些模型在理论上具备强大的处理能力，但在实际应用中却难以稳定完成简单的日常工作。这表明，当前的AI技术距离真正的全自动办公还有很长的路要走。

任务复杂性与失败模式

评测中指出，AI在长流程工作中面临四种结构性失败模式，尤其是任务越长，错误率越高。这种现象强调了AI在执行复杂任务时的脆弱性，未来的AI系统需要具备更强的自我检查和错误恢复能力，以应对真实工作环境中的挑战。

未来软件设计的方向

随着AI技术的发展，现有的SaaS界面可能需要重新设计，以适应AI的操作需求。当前的设计主要是为人类用户服务，但未来软件应考虑如何更好地支持AI Agent的工作流程，这将是推动AI应用落地的重要一步。

❓

延伸问答

SaaS-Bench评测的主要发现是什么？

SaaS-Bench评测显示，主流AI模型在真实办公任务中的通过率仅为3.8%，无法稳定完成实习生的日常工作。

AI在长流程工作中存在哪些缺陷？

AI在长流程工作中存在四大缺陷：任务越长越难、错误传播、缺乏自我检查和执行不稳定。

SaaS-Bench是如何评测AI模型的？

SaaS-Bench通过真实系统的测试，使用Docker部署23个开源SaaS系统，模拟真实工作环境进行评测。

为什么AI模型在跨应用任务中表现不佳？

大多数任务是跨应用和长流程的，AI模型缺乏对持久状态的有效推理能力和闭环验证机制，导致执行能力有限。

未来的软件设计需要考虑哪些因素以适应AI？

未来软件需重新设计以适应AI的操作需求，当前的SaaS界面可能需要为AI重做，以提高其工作效率。

SaaS-Bench评测结果对AI行业有什么启示？

SaaS-Bench评测结果揭示了AI模型与真实工作能力之间的巨大鸿沟，提示行业需关注AI在长程任务中的局限性。

🏷️