客户案例 | 某运营商应用大数据云智能监控平台

■ 文/天云软件 运维工程师 于凯伦

项目背景

大数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。广东GDP多年蝉联全国第一,某运营商广东省分公司为提高其在通信行业的地位,节省重复的功能开发成本,提高对业务的监控能力,减轻在运维方面的负担,同时把握这一新兴领域带来的机遇。通过建立大数据智能云监控平台,不断跟踪研究大数据、坚持技术创新与应用创新的协同共进,加快各领域对大数据监控平台的开发与利用,推动大数据的应用进入新的腾飞阶段。

项目痛点

目前市面上一般的监控平台,基本处理逻辑是基于个人经验设定阀值,当监控的指标达到或超过阀值后产生报警。主要存在以下的问题:

1、当前的云监控平台多数采用分散部署,多层次分级部署可以减轻服务端压力,但是会增加运维人员在部署和维护方面的困难。

2、采用分散处理,针对不同的数据源,开发独立的程序进行部署和解析,容易造成开发、运维以及升级扩展的困难。

3、基本采用批量设置静态阀值。阀值不合理,大面积虚假报警,同时不能反映动态真实环境,对所产生的报警,以及各报警之间的依赖关系缺乏分析,从而无法甄别出真实的、根源性的报警。

4、基本只有针对已发生情况的事后报警,缺乏预警。没有结合运行情况的趋势分析进行预警,不符合风险管控的原则。

解决方案

天云软件研发的大数据智能云监控平台是一项基于云的运维智能监控系统,利用开源软件或中间件可实时提取物理设备、基于云平台虚拟环境的有关设备和应用的运维数据,利用大数据平台进行建模分析形成运维指标。

广01

平台采用模块化设计,统一化管理和部署,能大大减少后期运维和升级方面的困难,同时给用户提供最简单的操作、最整洁的界面,最方便灵活的功能。

广02

平台总体架构图

广03

综合监控界面

大数据智能云监控平台致力于在原有一般监控的基础上,着力解决上述问题,构建基于大数据分析的智能监控,达到依靠数据自决策、自动态规划,并对报警结果进行分析比对后,再呈现给用户。

1、 由于分散部署会增加运维人员在维护和部署的困难,所以平台在数据采集这一块采取统一扁平化部署,即只有两层架构:采集器——设备。

广04

2、 上述提到分散处理会给开发、运维以及升级扩展带来困难,所以平台统一集中处理数据,即用spark对所有数据统一处理入库。

广05

3、 如果采用批量设置静态阀值,会导致阀值不合理。平台采用智能推荐阀值、智能发现异常,能大大提高报警的真实性和准确性;智能分析报警,动态展示报警和预警,能提高报警的精准性。

广06

告警管理界面

广07

监控地图界面

项目总结

天云软件的大数据智能云监控平台引入了大数据智能云平台技术,将有利于快速部署业务,根据web层提供可自主定义的运维管理和监控界面,能及时发出告警和预警,同时精准定位告警和预警,以便及时处理运维问题。引用大数据智能云监控平台能使报警的精准性提高60%,降低建设和维护成本的30%,将大数据的潜在价值转化为实际利益,使经济效益实现最大化。通过对不同来源数据的管理、监控、分析与优化,将结果反馈到业务当中,将为客户创造出巨大的经济和社会价值,更为企业技术、业务和管理创新带来新的契机。

 —End—