Claude Sonnet 4.5在开源审计工具Petri中被评为最安全的语言模型

InfoQ ·

Claude Sonnet 4.5在开源审计工具Petri中被评为最安全的语言模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Claude Sonnet 4.5在Anthropic的新工具Petri的早期评估中表现最佳。Petri用于自动化AI安全测试，评估模型在风险任务中的表现。尽管Sonnet 4.5表现优异，但所有模型仍存在不一致行为。Petri旨在快速发现潜在问题，推动AI安全研究进展。

🎯

关键要点

Claude Sonnet 4.5在Anthropic的新工具Petri的早期评估中表现最佳。
Petri用于自动化AI安全测试，评估模型在风险任务中的表现。
Anthropic测试了14个模型在111个风险任务中的表现，评分涵盖欺骗、谄媚、寻求权力和拒绝失败四个安全风险类别。
尽管Sonnet 4.5表现优异，但所有模型仍存在不一致行为。
Petri的主要功能是自动化AI安全测试，特别是在风险多轮场景中的模型行为。
Petri能够快速发现潜在问题，推动AI安全研究进展。
Petri的开放发布使其不仅是技术工具，也是公众审计和改进对齐研究的邀请。
Anthropic发布了示例提示、评估代码和扩展工具的指导。
Petri存在已知的局限性，例如评判模型可能继承潜在偏见。
Anthropic将Petri定位为安全探索工具，而非行业基准。
Petri的发布与AI实验室内部安全工具的浪潮相伴随，OpenAI和Meta也在进行类似的安全评估。
各国政府开始正式化AI安全要求，Petri可能加速这一趋势。

❓

延伸问答

Claude Sonnet 4.5在Petri评估中表现如何？

Claude Sonnet 4.5在Petri的早期评估中表现最佳，尤其是在风险任务中。

Petri工具的主要功能是什么？

Petri的主要功能是自动化AI安全测试，特别是在风险多轮场景中的模型行为。

Anthropic在Petri评估中测试了多少个模型？

Anthropic在Petri评估中测试了14个模型。

Petri如何帮助发现潜在的AI安全问题？

Petri通过自动化测试和与模型的交互，快速发现潜在问题，推动AI安全研究进展。

Petri的开放发布有什么意义？

Petri的开放发布不仅是技术工具，也是公众审计和改进对齐研究的邀请。

Petri存在什么已知的局限性？

Petri的局限性包括其评判模型可能继承潜在偏见，如偏好某些回应风格或过度惩罚模糊性。

🏷️

继续阅读

阿里开源Open Code Review：一款AI代码评审命令行工具
阿里巴巴开源的Open Code Review（OCR）是一款AI代码审查工具，能够自动审查Git提交和代码变更。它通过分析代码库，识别潜在的空指针、线程...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
知识图谱+本地存储：开源Mnemo给AI配的长期记忆中枢
Mnemo是为大语言模型设计的本地优先长期记忆层，旨在解决AI每次会话忘记上下文的问题。它通过构建知识图谱存储历史对话和信息，帮助AI在后续提问中自动召回...
开源界的马戏团怪人
本文讨论了Terry A. Davis和Kent Overstreet的心理健康危机。Davis创造了TempleOS，尽管技术成就有限，但因精神疾病而受...