Toxicity of the Commons: Curating Open-Source Pre-Training Data

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了开源大型语言模型在使用公共数据时的毒性输出问题,提出了新的数据策划流程,开发了ToxicCommons数据集,并构建了Celadon分类器,以更有效地检测有害内容。研究表明,平衡的内容过滤方法能显著提升模型的安全性。

🎯

关键要点

  • 本研究探讨了开源大型语言模型在使用公共数据时的毒性输出问题。
  • 提出了一种新的数据策划流程,以改善数据的质量和安全性。
  • 开发了名为ToxicCommons的定制训练数据集,专注于检测有害内容。
  • 构建了Celadon分类器,以更高效地识别公共数据中的毒性内容。
  • 研究表明,平衡的内容过滤方法能显著提升模型的安全性。
➡️

继续阅读