OpenAI 开源的 GPT-oss 模型中文训练数据质量较差,包含大量脏话、广告和敏感词。开发者通过分析模型权重和敏感词测试发现,这些内容在训练中频繁出现,模型对此反应明显。相比之下,其他开源模型如 DeepSeek 在训练前进行了数据清洗,减少了敏感内容的影响。
完成下面两步后,将自动完成登录并继续当前操作。