Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为 "Anthropic开源AI安全工具Petri,14款主流大模型全被检出危险行为!" Anthropic PBC推出开源工具Petri,利用AI智能体审计大语言模型(LLM)行为,识别潜在安全隐患。14款主流模型均存在问题,Petri可自动监测风险,减少人工评估。尽管Claude Sonnet 4.5表现最佳,所有模型仍有行为失准。该工具为开发者提供量化安全指标,推动行业安全标准建立。 AI审计 Anthropic Petri 大语言模型 安全隐患