阿尔哦覅和 发表于 2019-1-15 14:03:33

云计算平台管理的三大利器Nagios、Ganglia和Splunk -- solar

  云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。

[*]如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。
[*]如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。
[*]而如果你是运维团队的总负责人,简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题,毕竟,公司为此投入了巨大的资金和人力。
  朋友们,当我们管理起公司寄予厚望的云计算平台时,当我们面对如此多充满挑战的实际问题时,该怎么办?
  概述
  我们在搭建趋势云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到兴奋的同时,也不免有些顾虑。大家坐在一起讨论,问题就列了满满一白板。

[*]出了问题怎么办,有没有预警机制?
[*]有没有可视化的管理界面?
[*]管理平台需要自己开发吗?开发难度有多大?
[*]有没有开源的管理工具?
[*]那么多日志分布在各个机器上,有没有更有效的方法管理?
[*]能否生成好的报表?
[*]机器宕机,管理员能否收到短信通知?
[*]如何做性能调优?
[*]扩容升级时,能否给出依据?
  带着这些问题,我们开始了自己的云计算平台管理和运营之旅,一路走来,收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。
http://www.programmer.com.cn/wp-content/uploads/2012/04/0011.jpg
  图1 云计算平台监控架构
  在这个系统中,我们综合利用了Nagios、Ganglia和Splunk,搭建起云计算平台监控体系,使其具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,我们终于能够轻松管理Hadoop/HBase云计算平台了。接下来将简单介绍它们的特点和功能。
  查看全文

页: [1]
查看完整版本: 云计算平台管理的三大利器Nagios、Ganglia和Splunk -- solar