SOS!针对开源大型语言模型的软提示攻击
原文中文,约300字,阅读约需1分钟。发表于: 。在这项工作中,我们提出了一个名为 SOS 的新型训练时间攻击,该攻击在计算需求上较低,并且不需要干净的数据或修改模型权重,从而保持了模型的实用性。该攻击解决了多种情景下的安全问题,包括后门攻击、越狱攻击和提示窃取攻击。我们的实验结果表明,所提出的攻击在所有评估目标上都是有效的。此外,我们还介绍了 SOS 技术的另一面,即版权令牌,这是一种新颖的技术,可以使用户标记其受版权保护的内容,并防止模型使用它。
研究人员提出了一种名为SOS的新型训练时间攻击,解决了多种安全问题,无需干净数据或修改模型权重。实验结果表明,该攻击在所有评估目标上都有效。此外,研究人员还介绍了SOS技术的另一面,即版权令牌,用于保护用户的受版权保护内容。