最新研究发现大型语言模型易受后门攻击。研究揭示了一种新的后门攻击方法,通过在用户输入中分发多个触发场景,在历史对话中出现所有触发场景时激活后门,成功率高。
大型语言模型(LLMs)容易受到后门攻击的安全威胁。
研究揭示了一种新颖的后门攻击方法。
该方法通过在用户输入中分发多个触发场景实现。
后门仅在历史对话中出现所有触发场景时激活。
这种攻击方法具有高成功率。
完成下面两步后,将自动完成登录并继续当前操作。