Claude Sonnet 4.5在开源审计工具Petri中被评为最安全的语言模型

Claude Sonnet 4.5在开源审计工具Petri中被评为最安全的语言模型

InfoQ InfoQ ·

Claude Sonnet 4.5在Anthropic的新工具Petri的早期评估中表现最佳。Petri用于自动化AI安全测试,评估模型在风险任务中的表现。尽管Sonnet 4.5表现优异,但所有模型仍存在不一致行为。Petri旨在快速发现潜在问题,推动AI安全研究进展。

原文英文,约500词,阅读约需2分钟。
阅读原文