小红花·文摘

STShield是一种创新的单标记哨兵机制，旨在实时监测大型语言模型的越狱攻击。该方法通过在模型响应中附加安全指示符，利用模型的对齐能力进行检测。研究表明，STShield在保持模型实用性的同时，有效防御多种越狱攻击，具备优越的防御性能和较低的计算开销，适合实际部署。