安全算法:通过控制参数和激活函数在测试时间对齐语言模型的安全性
原文中文,约300字,阅读约需1分钟。发表于: 。安全算术是一种训练 - free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。
通过测量和可视化大型语言模型(LLMs)的安全景观,发现了一种称为“安全盆地”的普遍现象。提出了一种新的安全度量标准,VISAGE安全度量标准,用于衡量LLMs微调的安全性。LLMs的安全景观突出了系统提示在保护模型中的关键作用,并通过扰动变体进行传递。这项研究为未来关于LLMs安全性的工作提供了新的见解。