Ngnix上防止站点被采集,并防止垃圾搜索引擎抓取
原文中文,约1600字,阅读约需4分钟。发表于: 。屏蔽采集器、以及垃圾搜索引擎的原因,除了【公司内部站点,不希望内容被搜索引擎爬取】外,还有以下几点: 采集器大多时候用于采集站点内容,然后克隆出一个混搭网站,对于原创不公平。 内容农场,不仅采集其他站点内容, 为了引流,而且会生成无意义的内容,单纯的垃圾。 国内某些搜索引擎除了广告外,搜索的内容基本无用,并且无法识别上面垃圾内容,相当于二次垃圾制造器。 由于ChatGPT的火爆,...
本文介绍了使用Nginx防止站点被采集和垃圾搜索引擎抓取的方法,通过配置文件屏蔽采集器和垃圾爬虫的访问,实现禁止访问。作者测试发现效果良好,采集程序返回403禁止访问,垃圾评论减少到零。