研究首次测量了野外的jailbreak prompts,揭示其独特特征和攻击策略。评估显示当前大型语言模型和保护措施在多种情况下无法有效防御。这为研究界和供应商提供了改进安全性和监管的指导。
完成下面两步后,将自动完成登录并继续当前操作。