本研究探讨了开源大型语言模型在使用公共数据时的毒性输出问题,提出了新的数据策划流程,开发了ToxicCommons数据集,并构建了Celadon分类器,以更有效地检测有害内容。研究表明,平衡的内容过滤方法能显著提升模型的安全性。
本文探讨了大型语言模型(LLMs)的安全性评估与对抗问题,提出了攻击框架和自动红队方法以增强模型安全性。研究表明,LLMs易产生内隐性毒性输出,因此需要开发更鲁棒的检测系统。计划创建名为Sentinel的模型用于网络安全分析,并通过对抗测试识别漏洞,提升整体安全性。
完成下面两步后,将自动完成登录并继续当前操作。