小红花·文摘

本研究提出了一种新方法来解决大型语言模型的越狱攻击问题，包括场景引导模板、优化后缀选择和重后缀攻击机制。实验结果显示，该方法在攻击执行和可转移性方面的成功率接近100%，并在全球安全大型语言模型挑战赛中获得第一名。