JADE: 一种用于 LLM 的基于语言的安全评估平台

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

JADE是一种针对语言的模糊平台,可以破坏广泛使用的三类LLM。它基于转换生成文法,可以自动增长和转换解析树,直到破坏保护栏。JADE为这三类LLM生成了三个安全基准,包含高风险的不安全问题。

🎯

关键要点

  • JADE是一种针对语言的模糊平台,旨在破坏三类广泛使用的LLM。
  • JADE通过增强种子问题的语言复杂性,生成高风险的不安全问题。
  • JADE为八个开源中文LLM、六个商用中文LLM和四个商用英文LLM生成了三个安全基准。
  • JADE的平均不安全生成比率为70%,生成的问题流利且保留核心的不安全语义。
  • JADE基于Noam Chomsky的转换生成文法开发,利用生成和转换规则增加句法结构复杂性。
  • 当前最好的LLM难以识别恶意内容,因为人类语言的复杂性导致了无限的示例空间。
  • 生成和转换规则由母语人士构建,能够自动增长和转换问题的解析树。
➡️

继续阅读