研究发现,OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

研究发现,OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

思科研究发现,企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话,且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现差异明显,某些模型在配置变化下的安全性变化未被现有基准捕捉。思科建议AI提供商应披露部署设置对安全性的影响。

🎯

关键要点

  • 思科研究发现,企业在评估AI模型时使用的安全基准存在问题。

  • 多轮对话攻击的成功率显著高于单轮对话,成功率范围从7.89%到88.30%。

  • 单轮表现无法有效预测多轮韧性,某些模型在多轮攻击下表现差异明显。

  • Grok 4.1 Fast在启用推理模式时,多轮攻击成功率从88.30%降至43.47%。

  • 思科建议AI提供商应披露部署设置对安全性的影响,现有基准未能捕捉配置变化带来的安全性变化。

  • 不同攻击策略的有效性不同,模型在多轮攻击下的失败方式也各异。

延伸问答

思科的研究发现了什么关于AI模型安全基准的问题?

思科的研究发现,企业在评估AI模型时使用的安全基准存在问题,特别是单轮对话表现无法有效预测多轮对话的韧性。

多轮对话攻击的成功率有多高?

多轮对话攻击的成功率范围从7.89%到88.30%,显著高于单轮对话的成功率。

哪些AI模型在多轮攻击下表现较好?

在多轮攻击下,Anthropic Claude系列表现最佳,成功率在11.16%到16.20%之间。

Grok 4.1 Fast在启用推理模式时的表现如何?

Grok 4.1 Fast在启用推理模式时,多轮攻击成功率从88.30%降至43.47%。

思科对AI提供商有什么建议?

思科建议AI提供商应披露部署设置对安全性的影响,因为现有基准未能捕捉配置变化带来的安全性变化。

单轮对话和多轮对话的攻击成功率有什么区别?

单轮对话的攻击成功率范围为2.19%到64.91%,而多轮对话的成功率范围更广,从7.89%到88.30%。

➡️

继续阅读