> 动态 > 

运维监控All in one——上海某局上线维保保

发布时间:2023-12-18 11:55:32

项目背景


     该局信息中心共有2个中心机房,内网与外网进行隔离,目前上线60多套业务系统,2个中心机房加起来,共有1300余台主机设备,监控纳管对象多而杂,既有老设备,也有近几年上线的信创产品,比如麒麟操作系统、欧拉操作系统,达梦数据库、东方通中间件、宝兰德;以及各种国产硬件设备,服务器、核心交换机、安全设备等等。

     该信息中心于2012年采购过一套运维监控平台,但原有监控平台不能满足需求,系统的痛点主要体现在四个方面:

      1、部分功能较弱,技术老化

      2、不支持信创

      3、有数量限制,新设备无法加入监控

      4、厂商支持力度不够,更新非常慢

项目建设


     由于建设周期进展不一,现有机房环境监控系统、服务器资源监控系统、网络监控系统、虚拟化系统等,存在建设分散各自为战条块分割的问题。出现问题后沟通不畅、协作困难,业务系统不同层面的运维管理工作需要统一。
1、运维监控“All in one”
    通过采用了统一平台管理的方式,将所有的资源集中监控起来,并进行分门别类的展示,通过实时告警推送,能够快速定位问题。原来需要通过不同的监控系统去检查系统是否正常,现在通过一套系统就可以全部监控到位了,就好比是给人做体检,原来要去内科、外科、影像科、检验科,分别做检查,而现在只需要去体检中心,查看体检报告就能知道各项指标是否正常。

2、可靠告警,不要“狼来了“
     数据中心每天产生大量的性能数据、告警信息。该信息中心原运维监控软件,每天都会收到300多条告警信息,信息多了大家就不再关注了,因为系统总是“狼来了”,而实际上“狼”又没来,长此以往,工程师就会对一些告警信息视而不见,反而起不到告警的作用。
     维保保在刚接入时也会收到几百条告警信息,但工程师通过多种方式剔除了无效告警,比如某一服务器总是在凌晨1点,CPU占用率过高,后来发现这段时间系统在执行批量运算,因为凌晨1点用户量最小,这个时候CPU占用率高是正常现象,就不需要再告警。
     根据业务系统重要等级进行了区分,对于重要的核心业务系统,达到阈值后马上告警,而对于非核心业务,则每天汇总成一个报告,集中反馈给接单人员,这样又可以减少大概40%的告警。另外通过即动态阈值算法,进行第二道过滤,基本上可以将告警抑制率达到80%。
     通过2周的告警跟踪,现在每天的告警数量有效控制在20条左右,有效避免“疲于奔命”或“狼来了”的问题。
3、“3D机房轻松定位故障点”
     问题发生后需要快速找到问题点,并且故障恢复需要争分夺秒,但并不是每位工程师对机房的设备都那么熟悉,比如某一台物理服务器到底上架在哪个机柜里?

     应客户的要求,维保保开发了3D机房的功能,当有告警信息时,可以看到该设备所在的机柜会有特别的告警标志,当点击该告警标志时,系统会提示该机柜的第几U设备出现了故障,可以非常轻松定位故障点,缩短恢复的时间。
4、“自动发现缩短上线周期”
     实施过程中面临实施周期较长的问题,其中资源整合梳理慢、接入进度慢等因素都会导致实施周期延长。为了缩短实施周期,采用了一系列自动化的方法和功能。
     虚拟机自动发现:可以快速整理并建立虚拟子机的概览,这样可以节省很多手动整理的时间,提高了效率。通过自动拓扑功能,可以一键生成网络图,并且只需要客户进行微调即可展示。这种方式大大缩短了实施周期,并且能够更快地展示出成果。

     网络拓扑自动扫描工具,可以自动扫描和发现网络设备,并展示各网络设备之间的关联关系。网络工程师可以更快速地获取到全景信息,从而提高了工作效率。
总结


项目采用了分布式部署,使用了三台服务器来满足采集数据和发送数据的需求,接入了两个机房总计超过1300台监控对象,以构建业务运行情况的感知能力为监控系统的建设目标,而不是只停留在 lT 软硬件系统层面,告警信息的集中采集、集中管理,通过健康度权重计算规则,将某一告警对业务系统的影响度传递给运维监控管理者,支持数据中心运维管理人员的决策。