小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

OpenAI发布了GDPval基准,以评估AI模型在经济价值任务中的表现。测试结果显示,Claude Opus 4.1的表现最佳,47.6%的成果接近人类专家,GPT-5紧随其后。研究指出模型进步迅速,未来将扩展任务范围和真实性。

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

量子位
量子位 · 2025-09-26T06:06:39Z

在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%,明显高于Claude Opus 4.1的31%。新测试集难度较大,反映了模型在真实商业场景中的局限性。

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

量子位
量子位 · 2025-09-24T08:55:58Z

智谱的开源模型GLM-4.5在伯克利工具使用榜单上超越Claude Opus 4.1,成本仅为1.4%。其编程能力接近Claude 4,性能更高、速度更快,且在多项编程任务中表现优异。智谱还推出了高性价比的Claude Code套餐,适合日常开发。

智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%

量子位
量子位 · 2025-09-02T03:49:11Z

Claude Opus 4.1在白天性能下降,用户反馈请求处理质量退化。Anthropic承认问题并回滚更新,称推理堆栈错误影响响应质量。此外,用户还反映使用限制和API密钥暴露问题。

Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新

量子位
量子位 · 2025-09-01T09:19:34Z
Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

Anthropic推出Claude Opus 4.1,提升了多文件项目的编码可靠性和长时间交互的推理能力,SWE-bench Verified得分达到74.5%。新版本改善了代码重构和推理链跟踪,安全性提升,'无害响应率'达到98.76%。该模型现已向付费用户开放。

Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

InfoQ
InfoQ · 2025-08-28T09:00:00Z
LlamaIndex 新闻通讯 2025-08-12

本周LlamaIndex更新了对OpenAI的gpt-5和gpt-oss模型的支持,以及Anthropic的Claude Opus 4.1。新增LlamaParse的多模态报告生成、自动发票处理和企业文档处理功能,提升了文档检索和智能工具调用能力。

LlamaIndex 新闻通讯 2025-08-12

Blog on LlamaIndex
Blog on LlamaIndex · 2025-08-12T00:00:00Z

本周AI领域的热点包括Qwen-Image开源图像生成模型、OpenAI发布的gpt-oss模型、Claude Opus 4.1更新、Google推出的Genie 3,以及GPT-5发布后的平淡反响。此外,Flow Maker和Gemini Storybook等新产品也备受关注。

福强的本周AI热点回顾与简评

王福强
王福强 · 2025-08-08T16:00:00Z
亚马逊云科技上线Anthropic新一代Claude模型

亚马逊云科技推出了Anthropic的新模型Claude Opus 4.1和Claude Sonnet 4,支持动态推理模式切换,提升AI工作效率。Opus 4.1在搜索、创作和管理方面表现优异,具备领先的编码能力;Sonnet 4则在性能与成本之间取得平衡,适合大规模应用。两者均能处理大篇幅内容。

亚马逊云科技上线Anthropic新一代Claude模型

全球TMT-美通国际
全球TMT-美通国际 · 2025-08-06T08:50:21Z

Claude Opus 4.1正式发布,编程性能超越Opus 4,达到74.5%的新SOTA。官方表示未来将有更大更新,定价保持不变。客户反馈积极,强调模型在实际应用中的表现。Opus 4.1的无害回复率高达99.06%,现已向所有付费用户开放。

Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新

量子位
量子位 · 2025-08-06T02:41:24Z
解读 Claude Opus 4.1:混合推理的前沿跃迁

Anthropic于8月6日发布了Claude Opus 4.1,作为Opus 4的升级,提升了编码、长程任务和安全性。新模型在SWE-bench中取得74.5%的成绩,支持32k token输出,优化了复杂任务处理,价格保持不变。Opus 4.1为开发者提供了更强的推理能力和多工具协作,预示着未来的混合推理代理时代。

解读 Claude Opus 4.1:混合推理的前沿跃迁

麦克船长的技术、产品与商业博客
麦克船长的技术、产品与商业博客 · 2025-08-06T00:01:12Z

Google DeepMind发布了Genie 3,一个通用世界模型,能够生成动态交互环境,适用于机器人和游戏开发,但在物理模拟和社交交互方面仍存在挑战。AI在软件工程中的生产力提升被高估,主要体现在简单任务上。Claude Opus 4.1发布,增强了编码能力。Frigate是一个注重隐私保护的开源AI监控系统。PHP 8.5引入管道操作符,简化了代码。

2025 08 06 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2025-08-05T23:36:16Z
Claude Opus 4.1 现已在 Vercel AI Gateway 中支持

Claude Opus 4.1已发布,用户可通过Vercel的AI Gateway访问,无需其他账户。该模型在任务执行、编码和推理方面有所提升。AI Gateway提供统一API,支持性能优化和故障恢复,确保高可用性。使用AI SDK v5时,需安装相应包并设置模型。

Claude Opus 4.1 现已在 Vercel AI Gateway 中支持

Vercel News
Vercel News · 2025-08-05T13:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码