小红花·文摘

最近的研究发现大型语言模型存在安全漏洞，可以绕过审核和对齐的越狱提示。研究者提出了三个问题：威胁模型、基线防御技术和LLM安全性与计算机视觉的差异。研究者评估了几种基线防御策略，并发现在过滤和预处理方面，这些策略在语言模型领域中取得了更多的成功。