无需JavaScript即可阻止大型语言模型网络爬虫的方法

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

本文介绍了一种简单的爬虫阻断方案,通过设置“毒化路径”并在 robots.txt 中禁止爬取,利用无Cookie请求返回特定内容,从而有效拦截劣质爬虫,同时允许合规爬虫访问。

🎯

关键要点

  • 本文介绍了一种简单的爬虫阻断方案,设置毒化路径并在 robots.txt 中禁止爬取。
  • 使用无Cookie请求返回特定内容,拦截劣质爬虫,同时允许合规爬虫访问。
  • 设置毒化路径示例为 /heck-off/,并在 robots.txt 中禁止该路径的爬取。
  • 劣质爬虫可能追踪首个链接,而合规爬虫会遵守 robots.txt 规则。
  • 对于 /heck-off/ 请求,发送 Set-Cookie: slop=1 的头部。
  • 对于 /validate/ 请求,发送 Set-Cookie: validated=1 的头部,并重定向至来源URL。
  • 处理缓存机制时需谨慎,设置 Cache-Control 头为 no-cache, no-store, must-revalidate。
  • 可在网站页眉或页脚添加指向恶意路径的链接以确保安全。
  • 该方案在实践中效果良好,能有效拦截大量请求,避免误判。