OpenAI 开源的 GPT-oss 模型中文训练数据质量较差,包含大量脏话、广告和敏感词。开发者通过分析模型权重和敏感词测试发现,这些内容在训练中频繁出现,模型对此反应明显。相比之下,其他开源模型如 DeepSeek 在训练前进行了数据清洗,减少了敏感内容的影响。
ToolGood.Words 是一款高性能的敏感词检测组件,支持敏感词过滤、繁简体转换和拼音处理,速度可达每秒超3亿字符,性能优于C#自带正则表达式,适合开发者使用。
使用 Azure OpenAI 生成文本时,可能会遇到 HTTP 400 (content_filter) 错误,表示提示词触发了内容管理政策。此错误通常因包含敏感、暴力或歧视性词汇而被拦截。解决方法是修改提示词,避免不当内容。
在快手上做视频或直播时,要注意避免使用违禁词,否则可能会受到警告或封号的处罚。以下是10个敏感词供参考,包括权威性词、含有“首/家/国”及相关词语、含有“最”及相关词语、含有“一”及相关词语、含有“级/极”等相关词语、表示品牌地位的词语、虚假内容相关词、时限用语、疑似欺骗消费者用语和刺激消费词语。以上为个人经验分享,供参考。
完成下面两步后,将自动完成登录并继续当前操作。