欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

屏蔽Baidu等搜索引擎的爬虫

来源:本站转载 作者:佚名 时间:2014-03-19 TAG: 我要投稿

 正当我为SEO忧心重重的时候,有朋友竟然问我如何做到禁止Baidu等爬虫来收录网站,也就是说反SEO。真是林子大了什么鸟都有啊:-)

最简单的手段主要是通过robots.txt以及.htaccess文件,来禁止某些spider的User-Agent标识。当然前提是这些Spider都是正规的搜索引擎,不会伪装别的User-Agent标识。 
※对付那些经常伪装User-Agent的恶意爬虫,这些正规套路并不管用,一般需要采用封堵IP地址的办法。

方法1. 在网站的根目录下的robots.txt文件中增加以下代码:

User-agent: Baiduspider User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / User-agent: sogou spider Disallow: / User-agent: YoudaoBot Disallow: /

方法2. 在网站的根目录下的.htaccess文件中增加以下代码:

#屏蔽百度,搜狗,有道的爬虫 RewriteBase / RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^Sogou RewriteCond %{HTTP_USER_AGENT} ^YoudaoBot RewriteRule ^.*$ - [F]

还有更彻底的办法就是通过iptables之类的防火墙软件,将这些爬虫的ip地址全部屏蔽。但是这个方法的难点在于不太好掌握所有爬虫的IP地址,而且这些IP地址会不定期的发生变化。

参考网站: http://searchenginewatch.com/Article/2067357/Bye-bye-Crawler-Blocking-the-Parasites

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载