本研究探讨了模糊激活如何绕过大语言模型的潜在空间防御,揭示现有防御手段如稀疏自编码器的脆弱性。尽管模糊化在某些情况下能维持模型行为,但在复杂任务中会降低性能,提出了潜在空间防御的新挑战。
完成下面两步后,将自动完成登录并继续当前操作。