通过测量和可视化大型语言模型(LLMs)的安全景观,发现了一种称为“安全盆地”的普遍现象。提出了一种新的安全度量标准,VISAGE安全度量标准,用于衡量LLMs微调的安全性。LLMs的安全景观突出了系统提示在保护模型中的关键作用。这些观察结果为未来关于LLMs安全性的工作提供了新的见解。
通过测量和可视化大型语言模型(LLMs)的安全景观,发现了一种称为“安全盆地”的普遍现象。提出了一种新的安全度量标准,VISAGE安全度量标准,用于衡量LLMs微调的安全性。LLMs的安全景观突出了系统提示在保护模型中的关键作用,并通过扰动变体进行传递。这项研究为未来关于LLMs安全性的工作提供了新的见解。
完成下面两步后,将自动完成登录并继续当前操作。