小红花·文摘

本研究探讨了模糊激活如何绕过大语言模型的潜在空间防御，揭示现有防御手段如稀疏自编码器的脆弱性。尽管模糊化在某些情况下能维持模型行为，但在复杂任务中会降低性能，提出了潜在空间防御的新挑战。