MLCommons AI 安全基准 v0.5 发布

原文约500字,阅读约需1分钟。发表于:

介绍了 MLCommons AI 安全工作组创建的 AI 安全基准 v0.5,设计用于评估使用对话调整的语言模型的 AI 系统的安全风险。该基准采用了一个确定性的方法来指定和构建,并包括了 13 个危险类别的分类法,为 v0.5 版本提供了 7 个测试用例。

开发大型语言模型的快速加速使得开源和开放获取的模型成为专有模型的可行替代。SimpleSafetyTests是一套新的测试套件,用于鉴定大型语言模型的安全风险。测试发现11个开源大型语言模型中有几个存在重大的安全弱点。建议开发者将系统提示作为防范安全风险的第一层防线。

相关推荐 去reddit讨论