SAFETY-J: 评估安全性的批判方法
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
该研究介绍了JADE语言模糊平台,通过增强种子问题的语言复杂性破坏了三类LLM。JADE生成了三个安全基准,包含高风险的不安全问题。该研究认为当前的LLM无法识别恶意,因为人类语言的复杂性导致了无限的句法结构。
🎯
关键要点
- 该研究介绍了JADE,一种针对语言的模糊平台。
- JADE通过增强种子问题的语言复杂性,破坏了三类LLM。
- JADE为三类LLM生成了三个安全基准,包含高风险的不安全问题。
- 这些不安全问题可同时触发多个LLM的有害生成,平均不安全生成比率为70%。
- JADE基于Noam Chomsky的转换生成文法开发。
- JADE使用生成和转换规则增加问题的句法结构复杂性,直到破坏安全保护防护栏。
- 由于人类语言的复杂性,当前的LLM几乎无法识别恶意。
- 生成/转换规则由该语言的母语人士构建,能够自动增长和转换问题的解析树。
➡️