SALAD-Bench: 大型语言模型的分层与综合安全评估基准

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

该研究介绍了JADE模糊平台,通过增强种子问题的语言复杂性破坏了三类LLM。JADE生成了三个安全基准,包含高风险的不安全问题。该研究认为当前的LLM无法识别恶意,因为人类语言的复杂性导致了无限的句法结构。

🎯

关键要点

  • 该研究介绍了JADE模糊平台,旨在增强种子问题的语言复杂性。
  • JADE破坏了三类广泛使用的LLM,包括八个开源中文LLM、六个商用中文LLM和四个商用英文LLM。
  • JADE为这三类LLM生成了三个安全基准,包含高风险的不安全问题,平均不安全生成比率为70%。
  • JADE基于Noam Chomsky的转换生成文法开发,通过生成和转换规则增加问题的句法结构复杂性。
  • 研究认为当前的LLM无法识别恶意,因为人类语言的复杂性导致了无限的句法结构。
  • 生成和转换规则由母语人士构建,可用于自动增长和转换问题的解析树。
➡️

继续阅读