本研究提出了CurvaLID防御框架,旨在解决大型语言模型在安全部署中面临的对抗性提示挑战。该框架通过几何特性高效检测对抗性提示,揭示其与良性提示的区别,展现出优越的检测和拒绝能力。
完成下面两步后,将自动完成登录并继续当前操作。