你无法想象:OpenAI 中文训练数据有多脏

你无法想象:OpenAI 中文训练数据有多脏

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

OpenAI 开源的 GPT-oss 模型中文训练数据质量较差,包含大量脏话、广告和敏感词。开发者通过分析模型权重和敏感词测试发现,这些内容在训练中频繁出现,模型对此反应明显。相比之下,其他开源模型如 DeepSeek 在训练前进行了数据清洗,减少了敏感内容的影响。

🎯

关键要点

  • OpenAI 开源的 GPT-oss 模型中文训练数据质量较差,包含大量脏话、广告和敏感词。
  • 开发者通过分析模型权重和敏感词测试发现,这些内容在训练中频繁出现,模型对此反应明显。
  • 相比之下,其他开源模型如 DeepSeek 在训练前进行了数据清洗,减少了敏感内容的影响。
  • 使用特殊算法和参数检测,开发者找出了模型中高频出现的脏话和敏感词。
  • 模型对敏感词的反应表明这些词在训练数据中至少出现过一次。
  • 通过 API 测试,发现不同模型对敏感 token 的识别能力差异较大。
  • GPT-oss 和 GPT-5 的训练数据中包含许多成人网站相关的敏感内容。
  • 近年来中文互联网上的公开内容质量未显著提升,敏感、低俗信息依旧存在。

延伸问答

OpenAI 的 GPT-oss 模型中文训练数据存在哪些问题?

GPT-oss 模型的中文训练数据质量较差,包含大量脏话、广告和敏感词。

开发者是如何分析 GPT-oss 模型的训练数据的?

开发者通过特殊算法、参数检测和与模型的交互分析模型权重,找出高频出现的脏话和敏感词。

与其他开源模型相比,GPT-oss 的训练数据处理有什么不同?

相比之下,其他开源模型如 DeepSeek 在训练前进行了数据清洗,减少了敏感内容的影响。

GPT-oss 模型对敏感词的反应如何?

模型对敏感词的反应表明这些词在训练数据中至少出现过一次,且模型能识别这些词的含义。

近年来中文互联网上的内容质量如何?

近年来中文互联网上的公开内容质量未显著提升,敏感、低俗信息依旧存在。

如何通过 API 测试不同模型对敏感词的识别能力?

通过 API 测试,将高频敏感 token 输入不同模型,观察其识别能力和翻译结果。

➡️

继续阅读