爱范儿 ·

OpenAI 最强竞品大更新！一句话模拟人类用电脑，AI 智能体觉醒前的重大突破

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

Anthropic 推出 Claude 3.5 Sonnet，性能超越 GPT-4o 和 Gemini 1.5 Pro，尤其在编码方面表现出色。新功能「computer use」允许通过 API 操作电脑，但仍在实验阶段。Claude 3.5 在多项测试中表现优异，性价比不变。Claude 3.5 Haiku 也将发布，适合个性化服务。AGI 备受期待，但需实际产品验证。

🎯

关键要点

Anthropic推出Claude 3.5 Sonnet，性能超越GPT-4o和Gemini 1.5 Pro，尤其在编码方面表现出色。
新功能「computer use」允许通过API操作电脑，但仍在实验阶段。
Claude 3.5在多项测试中表现优异，性价比不变。
Claude 3.5 Haiku响应速度最快，适合个性化服务。
Claude 3.5 Sonnet在编码领域进一步拉大领先优势，特别是在SWE-bench Verified测试中表现突出。
Claude 3.5 Haiku在编码任务中表现优异，得分超过许多先进智能体。
AGI备受期待，但需实际产品验证，行业信心依赖于可靠的商业模式。

🔎

延伸解读

Claude 3.5 Sonnet的编码优势

Claude 3.5 Sonnet在编码领域的表现显著优于竞争对手，尤其在SWE-bench Verified测试中得分达到49.0%。这一成绩不仅展示了其强大的推理能力，也为开发者提供了更高效的编码解决方案，适合复杂的多步骤开发流程。

实验阶段的风险与限制

尽管Claude 3.5的新功能「computer use」具有潜力，但目前仍处于实验阶段，操作速度较慢且易出错。开发者在使用时需注意这些限制，避免将其应用于关键任务，以免影响工作效率。

AGI的未来展望

尽管业界对AGI的期待高涨，但实际产品的验证仍是关键。Claude系列的发布为行业注入信心，但在缺乏可靠商业模式的情况下，投资者需保持谨慎，关注技术的实际应用效果。

❓

延伸问答

Claude 3.5 Sonnet 的主要优势是什么？

Claude 3.5 Sonnet 在编码方面表现超越 GPT-4o 和 Gemini 1.5 Pro，尤其在 SWE-bench Verified 测试中得分显著提高。

Claude 3.5 的新功能「computer use」是如何工作的？

「computer use」功能通过 API 允许 Claude 像人类一样操作电脑，能看屏幕、动光标、点按钮和打字。

Claude 3.5 Haiku 有哪些特点？

Claude 3.5 Haiku 响应速度最快，适合个性化服务，并在编码任务中表现优异。

Claude 3.5 Sonnet 在基准测试中的表现如何？

Claude 3.5 Sonnet 在 GPQA、MMLU Pro 和 HumanEVal 等基准测试中表现亮眼，尤其在编码领域得分显著。

Claude 3.5 的实验阶段有哪些限制？

当前「computer use」功能仍在实验阶段，操作速度较慢且容易出错，简单操作对 Claude 来说仍具挑战。

AGI 的实现时间预期是什么？

行业内重要人物预测 AGI 将在未来几年内实现，时间范围从 2025 年到 2030 年不等。

🏷️