小红花·文摘

我们提出了一种自我改进的格式化方法，可以在非安全对齐的语言模型中实现出色的安全性。通过与几种防御基线进行评估，证明它是最安全的无需训练的方法。研究发现非安全对齐的语言模型在安全任务中表现更好，给出更有帮助且安全的回应。这项研究可以减少计算成本，降低安全风险，使非安全的语言模型可以在真实世界的服务中应用。