知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

知乎故意使用乱码干扰搜索引擎爬虫,阻止内容被抓取用于训练AI。知乎希望保护自己的内容,可能会与某公司达成协议获取内容用于AI模型训练。

🎯

关键要点

  • 知乎故意使用乱码干扰搜索引擎爬虫,阻止内容被抓取用于训练AI。
  • 知乎匹配关键词spider和bot,检测到这些关键词时返回乱码信息。
  • 知乎希望保护自己的内容,认为现有数据是巨大的金矿。
  • 可能会与某公司达成协议获取内容用于AI模型训练。
  • 测试显示,正常浏览器UA返回正常内容,而包含爬虫关键词的UA返回乱码。
  • 百度爬虫也会返回乱码,但可以通过技术手段解决。
  • OpenAI的GPT爬虫大多数情况下返回乱码,表明知乎不希望其内容被抓取。
➡️

继续阅读