OPENAI公布了互联网爬虫GPTBot,但纽约时报封禁了该爬虫,禁止其访问网站内容。纽约时报修改了robots.txt文件并明确禁止任何公司抓取其内容用于训练人工智能模型。纽约时报考虑对OPENAI提起法律诉讼。
OpenAI公布了GPTBot的技术细节,解释了如何禁止其爬虫访问网站。GPTBot通过过滤网页内容来改进模型,禁止访问需要付费、收集个人信息或违反政策的来源。可以通过robots.txt规则禁止GPTBot访问整个网站或部分内容。也可以屏蔽特定IP段。OpenAI乐意给网站所有者选择权,但模型已经训练好,使用内容后不会进行说明。
本文介绍了使用Nginx防止站点被采集和垃圾搜索引擎抓取的方法,通过配置文件屏蔽采集器和垃圾爬虫的访问,实现禁止访问。作者测试发现效果良好,采集程序返回403禁止访问,垃圾评论减少到零。
完成下面两步后,将自动完成登录并继续当前操作。