本研究探讨了大型语言模型(LLMs)在安全对齐方面的脆弱性,指出模板锚定是关键因素。通过将安全机制与模板区域分离,可以有效降低模型对越狱攻击的脆弱性,为未来研究提供新思路。
完成下面两步后,将自动完成登录并继续当前操作。