小红花·文摘

研究首次测量了野外的jailbreak prompts，揭示其独特特征和攻击策略。评估显示当前大型语言模型和保护措施在多种情况下无法有效防御。这为研究界和供应商提供了改进安全性和监管的指导。