本研究针对开源大型语言模型的毒性输出问题,提出了新的数据策划流程和ToxicCommons数据集,并构建了Celadon分类器,以提高有害内容的检测效率,显著增强模型安全性。
完成下面两步后,将自动完成登录并继续当前操作。