公共资源的毒性:策划开源预训练数据
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了开源大型语言模型在使用公共领域数据时面临的毒性输出问题。提出了一种新的数据策划流程,开发了名为ToxicCommons的定制训练数据集,并构建了Celadon分类器,以更高效地检测公共数据中的有害内容。研究表明,平衡的内容过滤方法可以显著提升模型的安全性。
本研究针对开源大型语言模型的毒性输出问题,提出了新的数据策划流程和ToxicCommons数据集,并构建了Celadon分类器,以提高有害内容的检测效率,显著增强模型安全性。