The New Stack ·

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

思科研究发现，企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话，且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现差异明显，某些模型在配置变化下的安全性变化未被现有基准捕捉。思科建议AI提供商应披露部署设置对安全性的影响。

🎯

🔎

思科的研究强调，多轮对话攻击的成功率显著高于单轮对话，这表明在实际应用中，攻击者更倾向于采用多轮交互的方式进行攻击。因此，企业在评估AI模型时，必须重视多轮对话的安全性，以更好地应对潜在的安全威胁。

研究指出，AI模型的安全性受配置变化的影响显著。例如，Grok 4.1 Fast在启用推理模式时，其多轮攻击成功率大幅下降。这提醒企业在部署AI时，需关注不同配置对安全性的具体影响，以避免潜在的安全漏洞。

单轮对话的表现并不能有效预测多轮对话的韧性，某些模型在多轮攻击下的表现差异显著。这意味着企业在选择AI模型时，不能仅依赖单轮测试结果，而应进行全面的多轮评估，以确保模型在实际应用中的安全性。

❓

思科的研究发现，企业在评估AI模型时使用的安全基准存在问题，特别是单轮对话表现无法有效预测多轮对话的韧性。

多轮对话攻击的成功率范围从7.89%到88.30%，显著高于单轮对话的成功率。

在多轮攻击下，Anthropic Claude系列表现最佳，成功率在11.16%到16.20%之间。

Grok 4.1 Fast在启用推理模式时，多轮攻击成功率从88.30%降至43.47%。

思科建议AI提供商应披露部署设置对安全性的影响，因为现有基准未能捕捉配置变化带来的安全性变化。

单轮对话的攻击成功率范围为2.19%到64.91%，而多轮对话的成功率范围更广，从7.89%到88.30%。

🏷️