小众软件 ·

你无法想象：OpenAI 中文训练数据有多脏

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

OpenAI 开源的 GPT-oss 模型中文训练数据质量较差，包含大量脏话、广告和敏感词。开发者通过分析模型权重和敏感词测试发现，这些内容在训练中频繁出现，模型对此反应明显。相比之下，其他开源模型如 DeepSeek 在训练前进行了数据清洗，减少了敏感内容的影响。

🎯

关键要点

OpenAI 开源的 GPT-oss 模型中文训练数据质量较差，包含大量脏话、广告和敏感词。
开发者通过分析模型权重和敏感词测试发现，这些内容在训练中频繁出现，模型对此反应明显。
相比之下，其他开源模型如 DeepSeek 在训练前进行了数据清洗，减少了敏感内容的影响。
使用特殊算法和参数检测，开发者找出了模型中高频出现的脏话和敏感词。
模型对敏感词的反应表明这些词在训练数据中至少出现过一次。
通过 API 测试，发现不同模型对敏感 token 的识别能力差异较大。
GPT-oss 和 GPT-5 的训练数据中包含许多成人网站相关的敏感内容。
近年来中文互联网上的公开内容质量未显著提升，敏感、低俗信息依旧存在。

❓

延伸问答

OpenAI 的 GPT-oss 模型中文训练数据存在哪些问题？

GPT-oss 模型的中文训练数据质量较差，包含大量脏话、广告和敏感词。

开发者是如何分析 GPT-oss 模型的训练数据的？

开发者通过特殊算法、参数检测和与模型的交互分析模型权重，找出高频出现的脏话和敏感词。

与其他开源模型相比，GPT-oss 的训练数据处理有什么不同？

相比之下，其他开源模型如 DeepSeek 在训练前进行了数据清洗，减少了敏感内容的影响。

GPT-oss 模型对敏感词的反应如何？

模型对敏感词的反应表明这些词在训练数据中至少出现过一次，且模型能识别这些词的含义。

近年来中文互联网上的内容质量如何？

近年来中文互联网上的公开内容质量未显著提升，敏感、低俗信息依旧存在。

如何通过 API 测试不同模型对敏感词的识别能力？

通过 API 测试，将高频敏感 token 输入不同模型，观察其识别能力和翻译结果。

🏷️

继续阅读

给 WordPress 7.0 的 AI 连接功能加上 DeepSeek 支持
WordPress 7.0 更新了 AI 连接功能，但仅支持国外提供商。为此，开发者推出了 WPJAM AI 插件，支持国内的 DeepSeek 等模型。...
OpenAI是如何构建其数据代理的
OpenAI的数据平台存储了1.5 exabytes的数据，支持约4000名内部用户。为提高数据分析效率，OpenAI开发了一个数据代理，能够快速回答用户...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
如何在不造成IT安全漏洞的情况下从工厂车间获取操作数据
文章讨论了信息技术（IT）与操作技术（OT）数据整合的重要性，强调在人工智能时代，企业需快速获取相关数据以保持竞争力。传统工具难以满足现代需求，工程师们转...
驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
如何使用Python自动化PDF数据提取
PDF仍是商业中常用的文档格式，但数据提取困难且易出错。Python成为自动化PDF数据提取的有效工具，开发者可以利用其库提取文本和表格，并处理扫描文档。...