设为首页 收藏本站
查看: 780|回复: 0

[经验分享] nginx反爬虫配置详解

[复制链接]

尚未签到

发表于 2018-11-13 12:10:40 | 显示全部楼层 |阅读模式
  网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如宜搜蜘蛛(YisouSpider)。
  下面介绍怎么禁止这些无用的user agent访问网站。
  核心参数:http_user_agent,就是根据这个参数,将一些无用的爬虫禁止掉。
  进入到nginx安装目录下的conf/vhost目录,将如下代码保存为 deny_agented.conf
  注意:我的nginx.conf 项目都放在vhsot目录里面
  vim deny_agented.conf
  #禁止Scrapy|curl等工具的抓取
  if ($http_user_agent ~* (Scrapy|Curl|HttpClient))
  {
  return 403;
  }
  #禁止指定UA及UA为空的访问
  if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" )
  {
  return 403;
  }
  #禁止非GET|HEAD|POST方式的抓取
  if ($request_method !~ ^(GET|HEAD|POST)$)
  {
  return 403;
  }
  然后,在网站相关配置中的  location / {  之后插入如下代码:
  include deny_agented.conf;
  保存后,执行如下命令,平滑重启nginx即可:
  [root@localhost ~]# nginx -t
  nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
  nginx: configuration file /etc/nginx/nginx.conf test is successful

  [root@localhost ~]# nginx -s>  重启之后 开始模拟访问
  A:没有加上 #禁止Scrapy|curl等工具的抓取之前

加上禁止Scrapy|curl等工具的抓取 之后
  B:加上 #禁止指定UA及UA为空的访问

  下面是网络上常见的垃圾UA列表
  FeedDemon 内容采集
  BOT/0.1 (BOT for JCE) sql注入
  CrawlDaddy sql注入
  Java 内容采集
  Jullo 内容采集
  Feedly 内容采集
  UniversalFeedParser 内容采集
  ApacheBench cc***器
  Swiftbot 无用爬虫
  YandexBot 无用爬虫
  AhrefsBot 无用爬虫
  YisouSpider 无用爬虫
  jikeSpider 无用爬虫
  MJ12bot 无用爬虫
  ZmEu phpmyadmin 漏洞扫描
  WinHttp 采集cc***
  EasouSpider 无用爬虫
  HttpClient tcp***
  Microsoft URL Control 扫描
  YYSpider 无用爬虫
  jaunty wordpress爆破扫描器
  oBot 无用爬虫
  Python-urllib 内容采集
  Indy Library 扫描
  FlightDeckReports Bot 无用爬虫
  Linguee Bot 无用爬虫


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-634571-1-1.html 上篇帖子: nginx总结二(nginx的启动停止以及版本平滑升级) 下篇帖子: Nginx基于域名的虚拟主机
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表