ShieldGemma: 基于 Gemma 的生成性人工智能内容审查
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
ShieldGemma是基于Gemma2构建的安全内容审查模型套件,可预测关键伤害类型的安全风险。通过评估证明其卓越性能,并提出了基于LLM的数据筛选管道。发布ShieldGemma推动LLM安全性发展并提供更有效的内容审查解决方案。
🎯
关键要点
- ShieldGemma 是基于 Gemma2 构建的安全内容审查模型套件。
- 该模型可以预测关键伤害类型的安全风险,包括性露骨、危险内容、骚扰和仇恨言论。
- 通过公共和内部基准评估,ShieldGemma 的性能优于现有模型,如 Llama Guard 和 WildCard。
- 提出了一种新颖的基于 LLM 的数据筛选管道,适用于各种安全相关任务。
- 模型在合成数据训练下展现出强大的泛化性能。
- 发布 ShieldGemma 为研究社区提供了宝贵资源,推动 LLM 安全性发展。
➡️