Claude Sonnet 4.5在开源审计工具Petri中被评为最安全的语言模型

InfoQ ·

Claude Sonnet 4.5在Anthropic的新工具Petri的早期评估中表现最佳。Petri用于自动化AI安全测试，评估模型在风险任务中的表现。尽管Sonnet 4.5表现优异，但所有模型仍存在不一致行为。Petri旨在快速发现潜在问题，推动AI安全研究进展。

AI安全测试 Claude Sonnet 4.5 Petri claude 不一致行为开源语言模型风险任务

原文英文，约500词，阅读约需2分钟。