信息来源:
面临的挑战
量难撑:专家式运维难于支撑。数字化时代带来的模块化、服务化、分布式应用系统等新兴技术使得运维的数据量增大,运维复杂度提升,传统的专家式运维继续支撑。
错难忍:既要发展,也要稳定。在强监管的背景下,保障业务安全稳定运行的同时,必须支持业务快速发展,抢得市场先机,给现有运维模式提出了巨大的挑战。
力难聚:未形成整体、全面的运维能力。专业条线各自为政,自动化水平参差不齐,缺乏统一规划和能力联动。
志难展:运维困境与科技引领愿景。处于基础支撑保障阶段,不能提供业务洞察,更谈不上引领和推动业务发展。
背景及驱动
根据银保监会发布的《中国银行业信息科技“十三五”发展规划监管指导意见》,监管部门对银行IT运维指出明确的发展方向:要进一步提升数据中心管理能力成熟度,强化运维管理体系建设,逐步实现自动化、智能化运维。
GARTNER建议企业要在流程、技术和人员管理三方面共同均衡发展,才能有效支撑数字业务目标。IT运维需要进行实际转型,并引入AIOps(智能运维)作为支撑IT运维转型的核心。
智能运维体系研究
1.总体框架。
广发银行数据中心参考和研究了国内外运维、智能运维的发展现状,包括理论基础、技术演进路径以及成功实施案例;借鉴互联网的企业服务化理念;参考学习同业建设思路;基于大数据、人工智能、分布式数据库和图数据库等新兴技术,组织开展适合本行的智能运维体系研究,提出了基于服务化的智能运维体系框架。
智能运维体系包括管理对象层、基础数据层、基础能力层、服务接口层、服务场景层、服务展现层、服务对象层等七个层次。数据中心智能运维体系覆盖了整个信息系统技术运维流程管理、技术实施、人员管控。自下而上可划分为三个部分,即数据体系、能力体系以及服务体系。
2.体系内容介绍。
(1)数据体系。数据是智能运维体系的血液,建立运维数据体系,目的是统一标准,定义运维数据与运维对象的相关性,保障智能运维获取高质量运维数据输入。
(2)能力体系。完整和高质的运维能力集有助于通过服务化形成丰富的服务场景,是支撑智能运维的躯干。能力体系至少应包括资源供给、监控管理、流程管理、安全管控、执行操作、数据处理、智能分析等七个分类。
(3)服务体系。传统的IT架构存在运维能力的烟囱式问题,可通过服务化的方式解决,实现对各原子运维能力编排,快速形成各类服务场景。
实践情况
1.实施进展。
数据中心根据服务化智能运维体系的建设规划,完成了运维分析平台等14个运维平台的建设及优化改造,落地了智能运维体系各个能力集。基于服务集成的操作联动、智能分析方面有多个应用场景,例如:智能监控、关联分析、智能瓶颈分析报表等。
2.初步成效。
一是在运维对象数量、技术架构数量和运维精细度等指标不断增加的情况下,实现了月均故障数、服务处理时间和运维人员的减少。二是打破了运维能力壁垒。运维平台的服务化改造在打破技术平台物理壁垒的同时,也在打破各运维专业团队的思维壁垒。服务化的改造过程推动各专业团队的运维能力显式化、共享化,大幅增加团队间的沟通与协作。三是辅助运维决策初显成效。采用智能监控的系统告警数量比采用传统的预设值传统方式的告警数量减少近90%;多点关系分析能秒级提供影响分析和多系统规模性故障辅助定位;智能瓶颈分析报表展示了难以通过人力进行分析的数据关键路径决策树,辅助运维人员进行决策,可逐步推向业务运营支持。