小红花·文摘

本文探讨了大型语言模型（LLMs）的安全对齐问题，提出了RESTA方法以降低模型的有害性，同时保持性能。研究指出当前安全对齐存在漏洞，可能导致有害结果。通过引入Shadow Alignment和VISAGE安全度量，强调了安全性的重要性，并提出改进措施以增强模型的防御能力。