Anthropic发布了Claude Opus 4和Sonnet 4,支持扩展思维和工具使用。Claude 4在编码基准测试中表现优异,能够快速回答问题或进行深入思考,并使用本地文件存储数据,提升记忆能力。该模型被视为向虚拟协作伙伴迈出的重要一步,具备更高的安全性和更少的“捷径”使用。
本文介绍了BigO(Bench),一种新型编码基准,用于评估生成语言模型在理解和生成具有特定时间和空间复杂度的代码能力。研究发现,尽管模型在代码生成方面表现良好,但在理解复杂度方面存在不足,可能无法泛化到未奖励的任务。
完成下面两步后,将自动完成登录并继续当前操作。