微软研究团队提出了“上下文一致性攻击”(CCA算法),该算法利用大模型的会话历史漏洞,允许攻击者伪造对话历史,从而诱导模型生成有害输出。该算法简单易用,已在多个模型上成功测试,显示出其有效性。
完成下面两步后,将自动完成登录并继续当前操作。