小红花·文摘

通过测量和可视化大型语言模型（LLMs）的安全景观，发现了一种称为“安全盆地”的普遍现象。提出了一种新的安全度量标准，VISAGE安全度量标准，用于衡量LLMs微调的安全性。LLMs的安全景观突出了系统提示在保护模型中的关键作用。这些观察结果为未来关于LLMs安全性的工作提供了新的见解。

CoCA：通过宪法校准恢复多模态大型语言模型的安全意识

BriefGPT - AI 论文速递 ·

通过测量和可视化大型语言模型（LLMs）的安全景观，发现了一种称为“安全盆地”的普遍现象。提出了一种新的安全度量标准，VISAGE安全度量标准，用于衡量LLMs微调的安全性。LLMs的安全景观突出了系统提示在保护模型中的关键作用，并通过扰动变体进行传递。这项研究为未来关于LLMs安全性的工作提供了新的见解。

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

BriefGPT - AI 论文速递 ·