小红花·文摘

OpenAI发布了GDPval基准，以评估AI模型在经济价值任务中的表现。测试结果显示，Claude Opus 4.1的表现最佳，47.6%的成果接近人类专家，GPT-5紧随其后。研究指出模型进步迅速，未来将扩展任务范围和真实性。

谁是最强“打工AI”？OpenAI亲自测试，结果第一不是自己

量子位 ·

在SWE-BENCH PRO测试中，GPT-5表面解决率为23.3%，但实际提交任务准确率达到63.1%，明显高于Claude Opus 4.1的31%。新测试集难度较大，反映了模型在真实商业场景中的局限性。

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

量子位 ·

智谱的开源模型GLM-4.5在伯克利工具使用榜单上超越Claude Opus 4.1，成本仅为1.4%。其编程能力接近Claude 4，性能更高、速度更快，且在多项编程任务中表现优异。智谱还推出了高性价比的Claude Code套餐，适合日常开发。

智谱开源GLM-4.5工具调用超越Claude Opus 4.1，成本仅1.4%

量子位 ·

Claude Opus 4.1在白天性能下降，用户反馈请求处理质量退化。Anthropic承认问题并回滚更新，称推理堆栈错误影响响应质量。此外，用户还反映使用限制和API密钥暴露问题。

Claude翻车：Opus 4.1白天退化，Anthropic承认并回滚更新

量子位 ·

Anthropic的Claude Opus 4.1提升了重构和安全性，SWE-bench Verified得分达到74.5%

InfoQ ·

LlamaIndex 新闻通讯 2025-08-12

Blog on LlamaIndex ·

本周AI领域的热点包括Qwen-Image开源图像生成模型、OpenAI发布的gpt-oss模型、Claude Opus 4.1更新、Google推出的Genie 3，以及GPT-5发布后的平淡反响。此外，Flow Maker和Gemini Storybook等新产品也备受关注。

福强的本周AI热点回顾与简评

王福强 ·

亚马逊云科技上线Anthropic新一代Claude模型

全球TMT-美通国际 ·

Claude Opus 4.1正式发布，编程性能超越Opus 4，达到74.5%的新SOTA。官方表示未来将有更大更新，定价保持不变。客户反馈积极，强调模型在实际应用中的表现。Opus 4.1的无害回复率高达99.06%，现已向所有付费用户开放。

Claude Opus 4.1火速发布！坐稳编程之王，官方：马上还有大更新

量子位 ·

解读 Claude Opus 4.1：混合推理的前沿跃迁

麦克船长的技术、产品与商业博客 ·

Google DeepMind发布了Genie 3，一个通用世界模型，能够生成动态交互环境，适用于机器人和游戏开发，但在物理模拟和社交交互方面仍存在挑战。AI在软件工程中的生产力提升被高估，主要体现在简单任务上。Claude Opus 4.1发布，增强了编码能力。Frigate是一个注重隐私保护的开源AI监控系统。PHP 8.5引入管道操作符，简化了代码。

2025 08 06 HackerNews

介绍 on SuperTechFans ·

Claude Opus 4.1 现已在 Vercel AI Gateway 中支持

Vercel News ·