robin 发表于 2019-2-5 06:24:00

System Center 2012 R2实例3—SCOM之SharePoint全方位监视6—宕机监视

  这节开始,我们将开始配置对Sharepoint的多维度的监控,
  其中最基本的就是计算机是否在线的宕机监视。
  

  Sharepoint监控①:宕机监视
  警报阈值:
  

  服务器
  DB1
  DB2
  APP1
  APP2
  SCH1
  WFE1
  WFE2
  DB3
  DC
  宕机
  Y
  Y
  Y
  Y
  Y
  Y
  Y
  Y
  Y
  

  

  1.所谓宕机监视,就是监视计算机有无脱机,是否能够正常通讯。
  一般情况下,我们经常使用ping命令来确认设备是否在线。而SCOM使用检测信号监视代理与代理的主要管理服务器之间的通信通道。
  检测信号是定期从代理向管理服务器发送的数据包,默认情况下每60秒发送一次并且使用端口5723 (UDP)。
  如果代理有4次无法发送检测信号,则会生成“运行状况服务检测信号失败”警报,并且管理服务器会尝试使用 ping 与计算机联系。 如果计算机未响应 ping,则会生成“连接到计算机失败”警报。下图显示了此过程。
http://s3.运维网.com/wyfs02/M02/6E/FE/wKioL1WOtZSzesX6AADkq6wzjeE452.jpg
  我们可以利用SCOM的这种检测信号来进行计算机的宕机监视。
  在管理—>设置中,可以确认和修改检测信号的间隔和失败量。
http://s3.运维网.com/wyfs02/M00/6E/FE/wKioL1WOtZiQMK6XAAEYOy5YzPk373.jpg
  信号间隔:
http://s3.运维网.com/wyfs02/M00/6F/01/wKiom1WOs9zyYkN5AACYOKTeTJc445.jpg
  允许丢失信号数:
http://s3.运维网.com/wyfs02/M01/6F/01/wKiom1WOs97j-wWnAAC5GpB9UZw548.jpg
  所以通过以上机制,SCOM可以在5分钟内确认计算机的宕机状态,发出警报,从而完成宕机监视。
  

  2.现在事先创建针对Sharepoint监视的管理包。有了这种集成的管理包,我们可以方便地导出导入我们针对各种系统而做出的自定义设定。
  打开管理—>管理包,点击创建管理包
http://s3.运维网.com/wyfs02/M02/6F/01/wKiom1WOs-GCxCiyAAECMpZfb88648.jpg
  输入管理包名称
http://s3.运维网.com/wyfs02/M00/6E/FE/wKioL1WOtafClJFaAADvG8krZ_s838.jpg
  点击创建
http://s3.运维网.com/wyfs02/M00/6E/FE/wKioL1WOtarQaTSKAAC0LaUblDE593.jpg
  

  3.进入创作—>管理包对象—>监视器
  找到运行状况服务观察程序的监视集。
  在可用性下,对计算机不可访问和运行状况服务检测信号失败进行替代设置。
  所谓替代,就是用自己自定义的值来替换SCOM中的默认值。
http://s3.运维网.com/wyfs02/M00/6F/01/wKiom1WOs_zg6vhYAAFPxY3585Q565.jpg
  选择运行状况服务检测信号失败的监视器,替代所有对象。
http://s3.运维网.com/wyfs02/M01/6F/01/wKiom1WOs_-Dor-9AAEkF0AJ9nY002.jpg
  勾选以下几项:
  已启用:是指启用此监视器
  生成警报:生成活动警报
  自动解决:当故障恢复时自动解除警报
  管理包选择自定义的Sharepoint System
http://s3.运维网.com/wyfs02/M02/6E/FE/wKioL1WOtcOyTxt7AAG2PksmNEw145.jpg
  对计算机不可访问监视器,也做出同样替代
http://s3.运维网.com/wyfs02/M00/6E/FE/wKioL1WOtcawOKYIAAGbRhdytao808.jpg
  

  4.修改完成后,我们尝试使WFE1脱机,关机或断开网络都可以。
  稍等5分钟左右,就会在活动警报中,出现以下两个警报:
http://s3.运维网.com/wyfs02/M01/6E/FE/wKioL1WOtcewGs4aAABdA3bs9eU373.jpg
  点开进入产品知识,可以查看具体内容
http://s3.运维网.com/wyfs02/M02/6E/FE/wKioL1WOtcuynx5wAAIDSxaRAUs375.jpg
http://s3.运维网.com/wyfs02/M00/6E/FE/wKioL1WOtdLxf_wwAAHRUg9FIZg701.jpg
  

  5.当我们使WFE1这台服务器重新在线时,活动警报会自动关闭,消失。
  那我们怎么确认历史警报呢?
  我们可以新建自定义警报视图
http://s3.运维网.com/wyfs02/M02/6E/FE/wKioL1WOtdWwz4bUAAEEizQjHD8062.jpg
  名称取所有警报,条件为查看所有警报
http://s3.运维网.com/wyfs02/M01/6F/01/wKiom1WOtBrh9D_SAAEYSeFKc2k355.jpg
  进入所有警报视图,可以查看确认警报已经关闭。
http://s3.运维网.com/wyfs02/M02/6F/01/wKiom1WOtB7ArtIJAACMdeiUQLE119.jpg



页: [1]
查看完整版本: System Center 2012 R2实例3—SCOM之SharePoint全方位监视6—宕机监视