思科研究发现,企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话,且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现差异明显,某些模型在配置变化下的安全性变化未被现有基准捕捉。思科建议AI提供商应披露部署设置对安全性的影响。
本文研究了对现代大型语言模型(LLMs)在编码任务中的对抗性示例攻击的影响,并提出了基于提示的防御措施,实验证明对抗性示例具有可转移性,削弱了LLMs的性能,提出的防御措施显示出改善模型韧性的潜力。
本文研究了对大型语言模型(LLMs)的编码任务的对抗性扰动的影响,并提出了基于提示的防御措施。实验证明,对抗性示例具有可转移性,削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。
完成下面两步后,将自动完成登录并继续当前操作。