Toxicity of the Commons: Curating Open-Source Pre-Training Data
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了开源大型语言模型在使用公共数据时的毒性输出问题,提出了新的数据策划流程,开发了ToxicCommons数据集,并构建了Celadon分类器,以更有效地检测有害内容。研究表明,平衡的内容过滤方法能显著提升模型的安全性。
🎯
关键要点
- 本研究探讨了开源大型语言模型在使用公共数据时的毒性输出问题。
- 提出了一种新的数据策划流程,以改善数据的质量和安全性。
- 开发了名为ToxicCommons的定制训练数据集,专注于检测有害内容。
- 构建了Celadon分类器,以更高效地识别公共数据中的毒性内容。
- 研究表明,平衡的内容过滤方法能显著提升模型的安全性。
🏷️
标签
➡️