InfoQ ·

Claude Sonnet 4.5 在SWE-Bench验证中表现出色，编码专注时间延长至30小时以上

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Anthropic发布了Claude Sonnet 4.5，这是其最新的编码模型，显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进，减少了谄媚和欺骗倾向，安全评分达到98.7%。用户反馈表明编码工作流显著提升，建议所有用户升级。

🎯

Anthropic发布了Claude Sonnet 4.5，这是其最新的编码模型，显著提升了代理任务和计算机使用能力。
该模型在安全性和训练方法上有显著改进，减少了谄媚、欺骗、权力寻求和妄想推理的倾向。
Claude Sonnet 4.5在SWE-bench Verified基准测试中得分77.2%，在OSWorld基准测试中得分61.4%，显示出自主编码能力的显著提升。
Anthropic称Sonnet 4.5为其“最对齐的前沿模型”，在更强能力与更严格的安全措施之间取得平衡。
安全评分达到98.7%，相比Claude Sonnet 4的89.3%有显著提升，显示出更强的拒绝行为和抵御恶意使用的能力。
Anthropic建议所有用户升级到Claude Sonnet 4.5，认为其是“直接替代品”，在不增加成本的情况下提供更强的性能。
早期用户反馈显示，Claude Sonnet 4.5在编码工作流中带来了可衡量的提升，表现出色。
Anthropic在安全性和自主编码模型方面的推进与AI生态系统中的类似进展相呼应，OpenAI最近发布了针对复杂软件工程任务优化的GPT-5-Codex。

🏷️

修复Pingora开源框架中的请求走私漏洞
2025年12月，Cloudflare发现Pingora框架存在HTTP/1.x请求走私漏洞，编号CVE-2026-2833、CVE-2026-2835和...
iPhone 17e 上手体验：「苹替」的平替，今年少有的性价比？
iPhone 17e 相较于 iPhone 16e 显著升级，新增淡粉色、支持 MagSafe、搭载 A19 处理器，性能提升，起售价不变，存储从 128...
Cloudflare R2 对象存储白嫖指南：10G存储+免流量费，打造免费图床
Cloudflare R2 对象存储免收出口流量费，解决了图床流量盗刷问题。兼容 S3 API，提供免费额度，适合个人用户。用户可通过缓存、速率限制和防盗...
文远知行与吉利远程深化战略合作，2026年交付2000台前装量产Robotaxi GXR
文远知行与吉利远程深化合作，计划到2026年交付2000台Robotaxi GXR，推动全球商业化进程。新车型将采用先进的自动驾驶技术，提升安全性和可靠性...
88岁图灵奖得主，用Claude一小时破解30年数学悬案
88岁图灵奖得主高德纳对Claude AI在1小时内解决他研究30年的三维图论问题感到震惊。Claude通过结构性思维而非暴力搜索，展现了逻辑推理和创造性...
PyMKUI：ZLMediakit的现代化前端管理界面
PyMKUI是ZLMediakit的现代化管理界面，提供视频流管理、观众列表和服务器监控等功能。采用Cookie登录以增强安全性，支持Python混合编程...