运维监控All in one——上海某局上线维保保

首页
方案
- 工单
- 项目
- 巡检
- 资产
- 需求
- 合同
- 知识库
- 综合
场景
- IT部
- 外包
- 后勤
- 一站式
问答
案例
动态
资料
关于

试用

4008-456-288

> 动态 >

运维监控All in one——上海某局上线维保保

发布时间：2023-12-18 11:55:32

项目背景

该局信息中心共有2个中心机房，内网与外网进行隔离，目前上线60多套业务系统，2个中心机房加起来，共有1300余台主机设备，监控纳管对象多而杂，既有老设备，也有近几年上线的信创产品，比如麒麟操作系统、欧拉操作系统，达梦数据库、东方通中间件、宝兰德；以及各种国产硬件设备，服务器、核心交换机、安全设备等等。

该信息中心于2012年采购过一套运维监控平台，但原有监控平台不能满足需求，系统的痛点主要体现在四个方面：

1、部分功能较弱，技术老化

2、不支持信创

3、有数量限制，新设备无法加入监控

4、厂商支持力度不够，更新非常慢

项目建设

由于建设周期进展不一，现有机房环境监控系统、服务器资源监控系统、网络监控系统、虚拟化系统等，存在建设分散、各自为战、条块分割的问题。出现问题后沟通不畅、协作困难，业务系统不同层面的运维管理工作需要统一。

1、运维监控“All in one”

通过采用了统一平台管理的方式，将所有的资源集中监控起来，并进行分门别类的展示，通过实时告警推送，能够快速定位问题。原来需要通过不同的监控系统去检查系统是否正常，现在通过一套系统就可以全部监控到位了，就好比是给人做体检，原来要去内科、外科、影像科、检验科，分别做检查，而现在只需要去体检中心，查看体检报告就能知道各项指标是否正常。

2、可靠告警，不要“狼来了“

数据中心每天产生大量的性能数据、告警信息。该信息中心原运维监控软件，每天都会收到300多条告警信息，信息多了大家就不再关注了，因为系统总是“狼来了”，而实际上“狼”又没来，长此以往，工程师就会对一些告警信息视而不见，反而起不到告警的作用。

维保保在刚接入时也会收到几百条告警信息，但工程师通过多种方式剔除了无效告警，比如某一服务器总是在凌晨1点，CPU占用率过高，后来发现这段时间系统在执行批量运算，因为凌晨1点用户量最小，这个时候CPU占用率高是正常现象，就不需要再告警。

根据业务系统重要等级进行了区分，对于重要的核心业务系统，达到阈值后马上告警，而对于非核心业务，则每天汇总成一个报告，集中反馈给接单人员，这样又可以减少大概40%的告警。另外通过即动态阈值算法，进行第二道过滤，基本上可以将告警抑制率达到80%。

通过2周的告警跟踪，现在每天的告警数量有效控制在20条左右，有效避免“疲于奔命”或“狼来了”的问题。

3、“3D机房轻松定位故障点”

问题发生后需要快速找到问题点，并且故障恢复需要争分夺秒，但并不是每位工程师对机房的设备都那么熟悉，比如某一台物理服务器到底上架在哪个机柜里？

应客户的要求，维保保开发了3D机房的功能，当有告警信息时，可以看到该设备所在的机柜会有特别的告警标志，当点击该告警标志时，系统会提示该机柜的第几U设备出现了故障，可以非常轻松定位故障点，缩短恢复的时间。

4、“自动发现缩短上线周期”

实施过程中面临实施周期较长的问题，其中资源整合梳理慢、接入进度慢等因素都会导致实施周期延长。为了缩短实施周期，采用了一系列自动化的方法和功能。

虚拟机自动发现：可以快速整理并建立虚拟子机的概览，这样可以节省很多手动整理的时间，提高了效率。通过自动拓扑功能，可以一键生成网络图，并且只需要客户进行微调即可展示。这种方式大大缩短了实施周期，并且能够更快地展示出成果。

网络拓扑自动扫描工具，可以自动扫描和发现网络设备，并展示各网络设备之间的关联关系。网络工程师可以更快速地获取到全景信息，从而提高了工作效率。

总结

项目采用了分布式部署，使用了三台服务器来满足采集数据和发送数据的需求，接入了两个机房总计超过1300台监控对象，以构建业务运行情况的感知能力为监控系统的建设目标，而不是只停留在 lT 软硬件系统层面，告警信息的集中采集、集中管理，通过健康度权重计算规则，将某一告警对业务系统的影响度传递给运维监控管理者，支持数据中心运维管理人员的决策。

上一条：维保保V12.7版本发布

下一条：这家医院选择维保保运维监控平台