JADE: 一种用于 LLM 的基于语言的安全评估平台
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
JADE是一种针对语言的模糊平台,可以破坏广泛使用的三类LLM。它基于转换生成文法,可以自动增长和转换解析树,直到破坏保护栏。JADE为这三类LLM生成了三个安全基准,包含高风险的不安全问题。
🎯
关键要点
- JADE是一种针对语言的模糊平台,旨在破坏三类广泛使用的LLM。
- JADE通过增强种子问题的语言复杂性,生成高风险的不安全问题。
- JADE为八个开源中文LLM、六个商用中文LLM和四个商用英文LLM生成了三个安全基准。
- JADE的平均不安全生成比率为70%,生成的问题流利且保留核心的不安全语义。
- JADE基于Noam Chomsky的转换生成文法开发,利用生成和转换规则增加句法结构复杂性。
- 当前最好的LLM难以识别恶意内容,因为人类语言的复杂性导致了无限的示例空间。
- 生成和转换规则由母语人士构建,能够自动增长和转换问题的解析树。
➡️