小红花·文摘

本研究分析了大型语言模型如GPT-4和LLaMA 3在安全对齐中的漏洞，特别是对抗后缀的影响。结果显示，对抗后缀可能代表主导模型行为的特征，并能转化为良性特征，这在训练数据中可能引发安全风险，强调了加强模型安全对齐的重要性。