机器之心 ·

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

初创公司Cosine推出自主AI程序员Genie，其在SWE-bench上得分30%，超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified，GPT-4o在该版本上的性能达到33.2%，是原始SWE-bench的两倍多。

🎯

🏷️

OpenAI宣布收购AI安全初创公司Promptfoo 可以提高智能体的安全防御能力
OpenAI 收购了 AI 安全初创公司 Promptfoo，旨在提升 AI 智能体的安全性。Promptfoo 成立于 2024 年，估值 8600 万...
派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等
阿里巴巴达摩院与多家医院合作研发的脂肪肝筛查AI模型MAOSS，能够通过CT影像和血清指标精准筛查肝脂肪分期，将高风险患者的检出率提升至52.4%。该研究...
OpenAI和谷歌的员工支持Anthropic对五角大楼的诉讼
致命自主武器在新环境中表现不可靠，无法准确识别目标，缺乏人类判断能力，因此决策过程中需有人类参与以确保安全。
Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
龙虾最佳适配模型，OpenClaw之父给出了推荐
PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。...