设为首页 收藏本站
查看: 1044|回复: 0

[经验分享] python分析nginx访问日志

[复制链接]

尚未签到

发表于 2018-8-4 06:45:59 | 显示全部楼层 |阅读模式
  Web服务器的各种系统管理工作包括了多Nginx/Apache 日志的统计,python使这个任务变得极其简单,下面分享两个小脚本。
  一、统计Nginx的客户端缓存的命中率
  需要检查你的Nginx服务器拒绝客户请求的频率,服务器拒绝的原因是因为客户缓存中的页面已经更新过了。
  解决方案:
  当浏览器请求一个在它的缓存中的服务器页面时,浏览器首先会让服务器了解缓存数据,如果客户缓存是更新过的,服务器会返回一个特殊的错误码(而不是再次提供该页面)。下面是在服务器的日志中统计这种现象的代码:
#!/usr/bin/env python  
import sys
  
logfile = sys.argv[1]
  
def ClientCache(logfile_path):
  
contents = open(logfile, "r")
  
totalrequests = 0
  
cacherequests = 0
  
for line in contents:
  
totalrequests += 1
  
if line.split(" ")[8] == "304":
  
cacherequests += 1
  
print "Percentage of requests that were client-cached: ", str(cacherequests) + "%"
  运行结果如下:
[root@chlinux logs]# ./nginx_log.py access.log  
Percentage of requests that were client-cached:  17%
  讨论:
  服务器的服务请求在客户端的缓存中的比例是衡量服务器效能的一个重要的因素。此脚本的代码能帮你从服务器日志中获取这种信息。
  此脚本的代码利用循环,每次读取日志文件中的一行,这也是读取文件的常用方式。for循环的主体部分调用split 方法来切割行字符串,它使用一个单空格字符串作为参数,将整行切成了由空格隔开的字段,并组成一个元组,然后它使用索引([8])来获取第9个字段。
  二、检查Nginx的访问日志,统计基于每个独立IP地址的点击率
  检查Nginx的日志文件,统计基于每个独立IP地址的点击率,代码如下:
#!/usr/bin/env python  
#coding:utf8
  
import re
  
import sys
  
contents = sys.argv[1]
  
def NginxIpHite(logfile_path):
  
#IP:4个字符串,每个1到3个数字,由点连接
  
ipadd = r'\.'.join([r'\d{1,3}']*4)
  
re_ip = re.compile(ipadd)
  
iphitlisting = {}
  
for line in open(contents):
  
match = re_ip.match(line)
  
if match:
  
ip = match.group( )
  
#如果IP存在增加1,否则设置点击率为1
  
iphitlisting[ip] = iphitlisting.get(ip, 0) + 1
  
print iphitlisting
  
NginxIpHite(contents)
  运行结果如下:
[root@chlinux 06]# ./nginx_ip.py access_20130617.log  
{'183.3.121.84': 1, '182.118.20.184': 2, '182.118.20.185': 1, '190.52.120.38': 1, '182.118.20.187': 1, '202.108.251.214': 2, '61.135.190.101': 2, '103.22.181.247': 1, '101.226.33.190': 3, '183.129.168.131': 1, '66.249.73.29': 26, '182.118.20.202': 1, '157.56.93.38': 2, '219.139.102.237': 4, '220.181.108.178': 1, '220.181.108.179': 1, '182.118.25.233': 4, '182.118.25.232': 1, '182.118.25.231': 2, '182.118.20.186': 1, '174.129.228.67': 20}
  此脚本返回的是一个字典,其中包含了访问Nginx 服务器的各个IP的点击数,这是通过分析Nginx日志文件的来的.在这个脚本中我们使用正则表达式来获得并同时验证IP,这个方法避使得我们避免了字符串切分操作和长度检查,但我们却不得不负担匹配正则表达式运行的开销。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-546120-1-1.html 上篇帖子: python:time时间模块 下篇帖子: python错误:No module named setuptools 解决方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表