我最近安装了蜘蛛分析插件,发现了 DataForSeoBot 蜘蛛。它每天爬上数十万页。经过搜索,是一家国外seo运营公司的蜘蛛。也就是说,DataForSeoBot爬虫收集到的数据是提供给很多对于SEO从业者来说,这些数据可以用于SEO竞争分析、SEO软件开发、市场调研,甚至是网络推广。也就是说,对于被爬取的网站本身来说,它没有任何价值,甚至还有数据收集的负面影响。
这还有啥说,果断屏蔽啊!
怎么屏蔽DataForSeoBot蜘蛛?
官网宣称DataForSeoBot爬虫支持robots.txt协议,但其实这货不怎么守规矩,robots.txt禁止以后,还爬的飞起。
所以建议需要屏蔽这个蜘蛛的,两手抓:
1、robots.txt协议禁止爬取
User-agent: DataForSeoBot Disallow: /
2、通过修改Nginx或其它WEB服务器规则禁止抓取
if ($http_user_agent ~* "DataForSeoBot/1.0" ) { return 403; }
3、通过禁止蜘蛛IP方式禁止访问
这个办法不推荐,蜘蛛IP有不少,还会新增改变,很难全部禁止掉。
总结:禁止DataForSeoBot爬虫最佳办法就是直接在服务器规则里面禁止,效果最好。