沉浸式翻译 immersive translate

程序师 ·

无需JavaScript即可阻止大型语言模型网络爬虫的方法

💡 原文中文，约900字，阅读约需3分钟。

📝

内容提要

本文介绍了一种简单的爬虫阻断方案，通过设置“毒化路径”并在 robots.txt 中禁止爬取，利用无Cookie请求返回特定内容，从而有效拦截劣质爬虫，同时允许合规爬虫访问。

🎯

关键要点

本文介绍了一种简单的爬虫阻断方案，设置毒化路径并在 robots.txt 中禁止爬取。
使用无Cookie请求返回特定内容，拦截劣质爬虫，同时允许合规爬虫访问。
设置毒化路径示例为 /heck-off/，并在 robots.txt 中禁止该路径的爬取。
劣质爬虫可能追踪首个链接，而合规爬虫会遵守 robots.txt 规则。
对于 /heck-off/ 请求，发送 Set-Cookie: slop=1 的头部。
对于 /validate/ 请求，发送 Set-Cookie: validated=1 的头部，并重定向至来源URL。
处理缓存机制时需谨慎，设置 Cache-Control 头为 no-cache, no-store, must-revalidate。
可在网站页眉或页脚添加指向恶意路径的链接以确保安全。
该方案在实践中效果良好，能有效拦截大量请求，避免误判。

🏷️

标签

javascript robots.txt 合规大型语言模型毒化路径爬虫请求