MLCommons AI 安全基准 v0.5 发布

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

开发大型语言模型的快速加速使得开源和开放获取的模型成为专有模型的可行替代。SimpleSafetyTests是一套新的测试套件,用于鉴定大型语言模型的安全风险。测试发现11个开源大型语言模型中有几个存在重大的安全弱点。建议开发者将系统提示作为防范安全风险的第一层防线。

🎯

关键要点

  • 开发大型语言模型的快速加速使得开源模型成为专有模型的可行替代。
  • 大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容,存在重大安全风险。
  • 引入了 SimpleSafetyTests 作为新的测试套件,用于鉴定大型语言模型的安全风险。
  • 测试套件包含 100 个测试提示,涵盖五个危害方面应拒绝遵守的内容。
  • 测试发现11个开源大型语言模型中有几个存在重大的安全弱点。
  • 大多数模型在超过20%的情况下会回答不安全,极端情况下超过50%。
  • 强调安全性的系统提示能够减少不安全回答,但不能完全阻止。
  • 建议开发者将系统提示作为防范安全风险的第一层防线。
➡️

继续阅读