OpenAI ·

OpenAI与Anthropic分享联合安全评估的发现

💡 原文英文，约10900词，阅读约需40分钟。

📝

内容提要

OpenAI与Anthropic合作进行模型安全性评估，结果显示Claude 4模型在遵循指令方面表现良好，但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%，显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性，未来将继续改进评估方法。

🎯

关键要点

OpenAI与Anthropic合作进行模型安全性评估，Claude 4模型在遵循指令方面表现良好。
Claude模型在抵抗越狱攻击上不及OpenAI的模型。
Claude模型在幻觉评估中的拒绝率高达70%，显示出其对不确定性的意识。
两家实验室的合作将提升模型的安全性和对齐性，未来将继续改进评估方法。
Claude 4模型在遵循指令层级方面表现良好，避免系统消息与用户消息冲突。
在越狱评估中，Claude模型的表现不如OpenAI的模型。
Claude模型在幻觉评估中拒绝率高，但整体准确率仍然较低。
OpenAI的模型在复杂情况下表现出更低的拒绝率和更高的幻觉率。
两家实验室的合作提供了新的评估场景，帮助验证模型在非常规场景中的表现。
未来将继续关注模型的安全性和对齐性，特别是在幻觉和过度迎合方面的改进。

❓

延伸问答

OpenAI与Anthropic的合作评估结果如何？

Claude 4模型在遵循指令方面表现良好，但在抵抗越狱攻击上不及OpenAI的模型。

Claude模型在幻觉评估中的表现如何？

Claude模型在幻觉评估中的拒绝率高达70%，显示出其对不确定性的意识，但整体准确率仍然较低。

未来OpenAI与Anthropic的合作将如何影响模型安全性？

两家实验室的合作将提升模型的安全性和对齐性，未来将继续改进评估方法。

Claude模型在抵抗越狱攻击方面的表现如何？

Claude模型在越狱评估中表现不如OpenAI的模型，尤其是在某些场景下。

OpenAI的模型在复杂情况下的表现如何？

OpenAI的模型在复杂情况下表现出更低的拒绝率和更高的幻觉率。

这次评估中有哪些新的评估场景被引入？

评估中引入了如精神与感恩、奇异行为和举报等专业领域的场景。

🏷️

继续阅读

Anthropic和OpenAI在72小时内推出的服务引起华尔街关注
Anthropic和OpenAI近期推出针对金融服务的企业部署服务，认为AI部署差距是主要收入机会。Anthropic为中型企业提供定制解决方案，而Ope...
Waymo因安全问题暂停高速公路驾驶
Waymo因安全问题暂停了美国市场的高速公路驾驶服务，并在亚特兰大和圣安东尼奥停止运营，原因是洪水和施工区的影响。该公司计划推出新车型，并希望每周提供10...
JFrog报告回顾了供应链安全领域动荡的一年
2025年，软件供应链面临前所未有的安全挑战，AI的快速发展扩大了攻击面。JFrog报告显示，恶意活动激增451%。尽管97%的企业声称有治理措施，但实际...
OpenAI奥特曼躺医院引爆真相：GLP-1关大脑欲望拒做基因奴隶
GLP-1药物最初用于控制食欲，后来发现其影响大脑的欲望系统，降低人们对食物和其他事物的兴趣。OpenAI CEO山姆·奥特曼的经历表明，过量使用GLP-...
全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
安全团队如何向董事会报告网络风险
文章讨论了如何将网络风险转化为财务语言，以便董事会理解并优先考虑安全投资。通过概率金融建模（如蒙特卡洛模拟），安全团队能够生成基于实际资产价值的损失范围，...