公共资源的毒性:策划开源预训练数据

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究针对开源大型语言模型的毒性输出问题,提出了新的数据策划流程和ToxicCommons数据集,并构建了Celadon分类器,以提高有害内容的检测效率,显著增强模型安全性。

🎯

关键要点

  • 本研究解决了开源大型语言模型在使用公共领域数据时的毒性输出问题。
  • 提出了一种新的数据策划流程。
  • 开发了名为ToxicCommons的定制训练数据集。
  • 构建了Celadon分类器,以更高效地检测公共数据中的有害内容。
  • 研究表明,平衡的内容过滤方法可以显著提升模型的安全性。
➡️

继续阅读