无需JavaScript即可阻止大型语言模型网络爬虫的方法
💡
原文中文,约900字,阅读约需3分钟。
📝
内容提要
本文介绍了一种简单的爬虫阻断方案,通过设置“毒化路径”并在 robots.txt 中禁止爬取,利用无Cookie请求返回特定内容,从而有效拦截劣质爬虫,同时允许合规爬虫访问。
🎯
关键要点
- 本文介绍了一种简单的爬虫阻断方案,设置毒化路径并在 robots.txt 中禁止爬取。
- 使用无Cookie请求返回特定内容,拦截劣质爬虫,同时允许合规爬虫访问。
- 设置毒化路径示例为 /heck-off/,并在 robots.txt 中禁止该路径的爬取。
- 劣质爬虫可能追踪首个链接,而合规爬虫会遵守 robots.txt 规则。
- 对于 /heck-off/ 请求,发送 Set-Cookie: slop=1 的头部。
- 对于 /validate/ 请求,发送 Set-Cookie: validated=1 的头部,并重定向至来源URL。
- 处理缓存机制时需谨慎,设置 Cache-Control 头为 no-cache, no-store, must-revalidate。
- 可在网站页眉或页脚添加指向恶意路径的链接以确保安全。
- 该方案在实践中效果良好,能有效拦截大量请求,避免误判。
🏷️