本研究提出了AmpleGCG-Plus增强版,有效解决了大型语言模型在对抗性后缀下的脆弱性,显著提高了攻击成功率,尤其在破解GPT-4o系列模型方面表现突出。
本文提出了一种对抗性后缀嵌入翻译框架(ASETF),能够将不可读的对抗性后缀转化为流畅文本,从而提升攻击成功率。同时,研究开发了多种安全评估和防御框架,如Adversarial Prompt Shield(APS)和ASSERT,旨在增强大型语言模型的安全性和鲁棒性,确保其在复杂环境中的可靠性。
完成下面两步后,将自动完成登录并继续当前操作。