自监督提示注入（SPIN）

本研究关注大型语言模型（LLMs）的安全性和可靠性问题，提出了一种名为自监督提示注入（SPIN）的新方法，以检测和逆转针对LLMs的攻击。研究表明，该方法能将攻击成功率降低多达87.9%，同时在正常用户请求上的表现保持优异，显著增强了模型的安全防护。

大型语言模型在实际应用中容易受到注入攻击。研究提供了一个由Tensor Trust游戏玩家创建的对抗示例数据集，包含超过12.6万次攻击和4.6万次防御实例。利用该数据集，我们建立了抵抗注入攻击的基准测试，发现许多模型对此类攻击策略很脆弱。部分策略在不同条件下的LLMs应用中也有效。数据和源代码已公开。

基准测试大型语言模型对抗示例数据集注入攻击自监督