在对齐的大型语言模型上推进对抗性后缀迁移学习
内容提要
本文探讨了对齐语言模型的攻击方法,包括局部微调和对抗性后缀嵌入翻译框架(ASETF),提高了攻击成功率和传递性。提出的新算法“Probe sampling”加速了安全研究,并揭示了令牌划分对模型性能的影响,提出了增强防御能力的框架。此外,介绍了高效黑箱越狱方法ECLIPSE,显著提高了攻击成功率和效率。
关键要点
-
通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击。
-
局部微调(LoFT)方法提高了攻击的成功率和传递性。
-
对抗性后缀嵌入翻译框架(ASETF)在攻击成功率和提示文本流畅性方面优于现有技术。
-
新算法“Probe sampling”加速了LLM安全研究,提升了攻击成功率。
-
生成模型AmpleGCG能够快速生成对有害查询的对抗性后缀,攻击成功率接近100%。
-
提出对抗性数据集(ADT),揭示令牌划分对模型性能的重要影响。
-
改进的自动生成对抗性示例提高了白盒大语言模型的攻击性能。
-
提出两阶段的对抗调整框架,增强大型语言模型的防御能力。
-
新型高效黑箱越狱方法ECLIPSE显著提高了攻击成功率和效率,减少攻击开销达83%。
延伸问答
什么是对抗性后缀嵌入翻译框架(ASETF)?
对抗性后缀嵌入翻译框架(ASETF)是一种将不可读的对抗性后缀转化为连贯可读文本的方法,显著提高了攻击成功率和提示文本的流畅性。
局部微调(LoFT)方法如何提高攻击成功率?
局部微调(LoFT)方法通过在词汇-语义邻近的有害查询中微调代理模型,减小代理模型与目标模型之间的差异,从而提高攻击的成功率和传递性。
新算法“Probe sampling”有什么优势?
“Probe sampling”算法通过动态确定较小草图模型与目标模型预测的相似度,实现了多达5.6倍的加速,并在攻击成功率上表现相等或更好。
AmpleGCG生成模型的功能是什么?
AmpleGCG生成模型能够快速生成对有害查询的对抗性后缀,攻击成功率接近100%。
ECLIPSE方法在攻击中的表现如何?
ECLIPSE是一种高效的黑箱越狱方法,显著提高了攻击成功率和效率,减少攻击开销达83%。
对抗性数据集(ADT)有什么重要性?
对抗性数据集(ADT)揭示了令牌划分对模型性能的重要影响,为改善语言模型能力提供了优化划分过程和算法的研究方法。