爱范儿 ·

GPT-4o 见 AV 女优的次数比「您好」还多 2.6 倍，AI 正在被中文互联网疯狂污染？

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

研究表明，GPT-4o对日本女优「波多野结衣」的熟悉度是中文问候语「您好」的2.6倍，揭示了中文互联网中色情和赌博内容对AI的污染。这种污染影响了AI的理解和输出，导致生成不相关或混乱的信息，反映出AI的智能仍依赖于统计而非真正的认知。

🎯

🔎

研究表明，GPT-4o对色情和赌博内容的熟悉度远超日常用语，这反映了中文互联网中不良信息的泛滥。污染数据不仅影响AI的输出质量，还可能导致用户接收到不相关或混乱的信息，影响使用体验。

AI的训练过程需要清洗和对齐，但污染内容往往被过滤，导致相关词元欠训练。这使得AI在处理涉及污染词元时容易出现幻觉，无法正确理解用户的意图，反映出AI在语义理解上的局限性。

尽管有工具如POCDETECT和POCTRACE用于检测污染，清理互联网数据的难度依然巨大。污染内容的隐蔽性使得简单的过滤措施难以奏效，用户在使用AI时仍需警惕可能的错误信息。

❓

GPT-4o对「波多野结衣」的熟悉度是中文问候语「您好」的2.6倍。

污染中文词元是指在AI训练数据中，主要指向色情、网络赌博等灰色地带的词汇。

污染内容导致AI生成不相关或混乱的信息，影响其理解和输出质量。

研究团队开发了POCDETECT和POCTRACE工具来检测和分析污染情况。

污染词元的高频出现使得AI在理解时容易产生幻觉，导致输出不准确。

因为污染词元在训练阶段未被有效学习，导致AI只能依赖统计关联输出。

🏷️