设为首页 收藏本站
查看: 1701|回复: 0

[经验分享] 用python分析nginx的access日志

[复制链接]

尚未签到

发表于 2016-12-26 11:38:42 | 显示全部楼层 |阅读模式
项目正式发布后,有需求要分析下nginx的access日志内容,于是写了如下脚本:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
#@author zcwang3@gmail.com
#@version 2011-04-12 16:34
#Nginx日志分析,初始做成
import os
import fileinput
import re
#日志的位置
dir_log  = r"D:\python cmd\nginxlog"
#使用的nginx默认日志格式$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'
#日志分析正则表达式
#203.208.60.230
ipP = r"?P<ip>[\d.]*";
#[21/Jan/2011:15:04:41 +0800]
timeP = r"""?P<time>\[           #以[开始
[^\[\]]* #除[]以外的任意字符  防止匹配上下个[]项目(也可以使用非贪婪匹配*?)  不在中括号里的.可以匹配换行外的任意字符  *这样地重复是"贪婪的“ 表达式引擎会试着重复尽可能多的次数。
\]           #以]结束
"""
#"GET /EntpShop.do?method=view&shop_id=391796 HTTP/1.1"
requestP = r"""?P<request>\"          #以"开始
[^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
\"          #以"结束
"""
statusP = r"?P<status>\d+"
bodyBytesSentP = r"?P<bodyByteSent>\d+"
#"http://test.myweb.com/myAction.do?method=view&mod_id=&id=1346"
referP = r"""?P<refer>\"          #以"开始
[^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
\"          #以"结束
"""
#"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"'
userAgentP = r"""?P<userAgent>\"              #以"开始
[^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?)
\"              #以"结束
"""
#原理:主要通过空格和-来区分各不同项目,各项目内部写各自的匹配表达式
nginxLogPattern = re.compile(r"(%s)\ -\ -\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)" %(ipP, timeP, requestP, statusP, bodyBytesSentP, referP, userAgentP), re.VERBOSE)
def processDir(dir_proc):
for file in os.listdir(dir_proc):
if os.path.isdir(os.path.join(dir_proc, file)):
print "WARN:%s is a directory" %(file)
processDir(os.path.join(dir_proc, file))
continue
if not file.endswith(".log"):
print "WARN:%s is not a log file" %(file)
continue
print "INFO:process file %s" %(file)
for line in fileinput.input(os.path.join(dir_proc, file)):
matchs = nginxLogPattern.match(line)
if matchs!=None:
allGroups = matchs.groups()
ip = allGroups[0]
time = allGroups[1]
request = allGroups[2]
status =  allGroups[3]
bodyBytesSent = allGroups[4]
refer = allGroups[5]
#                userAgent = allGroups[6]
userAgent = matchs.group("userAgent")
print userAgent
#统计HTTP状态码的数量
GetResponseStatusCount(userAgent)
#在这里补充其他任何需要的分析代码
else:
raise Exception
fileinput.close()
allStatusDict = {}
#统计HTTP状态码的数量
def GetResponseStatusCount(status):
if allStatusDict.has_key(status):
allStatusDict[status] += 1;
else:
allStatusDict[status] = 1;

if __name__ == "__main__":
processDir(dir_log)
print allStatusDict
#根据值进行排序(倒序)
print sorted(allStatusDict.items(), key=lambda d:d[1], reverse=True)
print "done, python is great!"


得到的HTTP状态码的数量如下:

{'200': 287559, '302': 6743, '304': 4074, '404': 152918, '499': 887, '400': 14, '504': 93, '502': 300, '503': 5, '500': 88353}


各IP访问网站的次数如下(前10的IP):

[('220.178.14.98', 323230), ('220.181.94.225', 120870), ('203.208.60.230', 14342), ('61.135.249.220', 6479), ('203.208.60.88', 5426), ('61.135.249.216', 4867), ('123.125.71.94', 1290), ('123.125.71.104', 1282), ('123.125.71.108', 1280), ('123.125.71.110', 1278),  余下不显示]
从原始信息中提取IP后可以做一些额外的分析工作:如访问量前10的IP等 数据量大时采用hashIp后取模再统计

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-319693-1-1.html 上篇帖子: Nginx提供了很多内置的变量 下篇帖子: 转“nginx 预压缩(gzip)静态文件”
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表