Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为

"Anthropic开源AI安全工具Petri,14款主流大模型全被检出危险行为!"

Anthropic PBC推出开源工具Petri,利用AI智能体审计大语言模型(LLM)行为,识别潜在安全隐患。14款主流模型均存在问题,Petri可自动监测风险,减少人工评估。尽管Claude Sonnet 4.5表现最佳,所有模型仍有行为失准。该工具为开发者提供量化安全指标,推动行业安全标准建立。

原文中文,约1700字,阅读约需4分钟。发表于:
阅读原文