fox111 发表于 2017-6-25 17:13:25

运维团队所做的事情合集

运维做的事情集合



一 Linux本身的研究


二 对自己使用的所有工具,进行深入开发:
发布系统(自动化发布)
机器批量管理 (Puppet、Ansible)
LB管理(管理端和Agent端,7层和4层,承接用户流量和内部使用)
主机分配服务(对接云基础设施)
CMDB (资产信息)
Workflow流程平台 (自动化处理日常工单)

三 维护底层基础服务
CDN
DNS (开发管理工具、调整工作模式)

NTP
yum、pypi仓库和打包规范
业务机器初始化服务 (从shell脚本到Ansible,版本管理,可视化)
跳板机
运维管理机+各种小工具(url路径探测、批量操作工具)

ssl证书管理


四 提供基础监控和业务监控服务
1 open-falcon(替代zabbix)
2 logscan         (业务日志扫描,报警)
3 告警中心    (所有告警汇总,统一处理)
4 告警媒介    (邮件、短信、电话、IM)
5 radar(雷达) (自动化故障分析寻找root case)
6 看门狗      (网页监控等)
7 degrade      (一键降级服务)
8 脚本执行中心               (执行引擎服务)




五 提供运营化工具
1(公司生产环境运营质量报表)
2(生产环境事故运营系统+事故处理系统)


六 制定线上机器目录结构和软件安装规范
1 线上操作系统目录结构(软件安装目录、系统日志目录)
2 nginx\tomcat等软件安装、升级规范
3 线上RPM包打包规范


七 系统运维
1(基础设施可视化+基础设施监控)
2 pxe装机服务+ 虚拟化(KVM)+ 每台宿主机上安装一个Agent ==>(云主机)

3 防火墙(网络隔离、防攻击)
4 网络工程师
5 云存储


八 ToDo 和 特殊业务
(这部分都是暂时没有涉及到的)
1 把机器上所有的Agent (全家桶)合在一起
SuitAgent
https://github.com/cqyijifu/OpenFalcon-SuitAgent/wiki/whatIs

2 定时任务中心

3 公司级Wiki 和 Task系统

4 Hadoop运维

5 多机房容灾方案

6 公司架构部门组件的运维
   zookeeper等

7 预算管理、机器选型、压力测试等

8 开源分布式文件系统搭建、维护 ===> 使用云存储
页: [1]
查看完整版本: 运维团队所做的事情合集