信息来源:
随着数字经济的发展和同业竞争的加剧,信息科技对银行核心竞争力的影响日益显著。在此背景下,作为中小银行的城商行、农商行和农信社,受限于环境、体制、人才和投入等因素,信息科技发展整体处于智慧化的初级阶段。
北京农商银行作为一家区域性农村商业银行,2020年成功跻身万亿商业银行行列,在英国《银行家》2020年全球1000家银行排名中,资产规模排名146位,连续十年蝉联“年度最佳农商银行”。本文结合北京农商银行管理实践,分享运维管理如何强基础、补短板、抓规范、促提升,以期助力中小银行积极探索契合自身发展的信息科技运维道路。
一、规范运维管理是基础
运维工作标准化、规范化是稳定运维服务质量,提升组织服务能力的重要手段,可以说运维工作标准化、规范化只有进行时,永远在路上。运维无小事,且事关科技运维安全稳定运行,必然需要通过制度和流程来规范运维工作。对此,北京农商银行着重从以下几方面强化运维管理规范:
一是全面应用ITIL流程,通过ISO20000信息技术服务管理质量认证体系,确定“安全可控 合规高效”运维指导思想,制定了涵盖事件、问题、变更、能力、可用率管理等的管理办法、细则、手册,设立了重要信息系统实际可用率、网络受病毒威胁程度、ATM可用率等43项运维风险监测指标,季度开展指标分析和改进工作。
二是以事件、问题、变更规范管理为切入点,逐步扩展到性能容量、可用率等深层次管理领域。从解决频发、多发问题,逐步提升到举一反三、预防问题发生。
三是规范操作系统、中间件和数据库等版本,定期评估可接受版本和推荐版本,结合版本生命周期,组织基础软件版本升级,杜绝版本停止服务支持的风险。
四是完善信息系统生命周期管理,加强系统废止管理,及时关停被替代的老系统或交易量不大的信息系统,释放服务器、网络和机房空间等资源。
二、落实高可用架构和运维是前提
不出事是衡量运维工作的主要标准,稳定可靠的高可用架构是不出事的前提,而高可用性贯穿应用程序、数据库、操作系统、服务器、网络和机房基础设施,也贯穿运维全生命周期。北京农商银行以可用性管理为切入点,认识到单点故障和变更实施是高可用性最大的敌人,痛定思痛,通过消除单点、柔性变更等措施提高信息系统可用率。
一是规范前端、应用、数据库架构,淘汰HA技术,WEB层、应用层全面应用集群模式,数据库全面使用RAC,杜绝架构单点风险,确保架构高可用性。
二是建设架构简单、易于维护、灵活调度同城双活架构,渠道接入采用域名解析实现客户端接入流量调度,支付结算类系统同时接入人行、银联、农信银双中心,同城双中心之间应用尽量不交叉访问,中心内部通过应用服务网关实现应用系统之间调度,数据库采用成熟稳定MAA架构,核心、柜面、手机银行、互联网支付、二代支付等22套重要应用系统及重要支撑系统实现同城双活运行。
三是全面应用云计算、虚拟化、多租户等技术,发挥弹性拓展、快速供给、故障自动隔离等优势,实现PC服务器、小型机、数据库资源复用,生产环境云化比例达到51.36%,开发测试云化比例达到95%。
四是学习借鉴互联网经验,在应用服务网关、新核心银行系统引入限流和熔断机制,实现异常情况故障隔离和管控。加强负载均衡和应用集群节点之间联动,待负载均衡会话结束后再停止集群节点应用并投产,在核心系统、应用服务网关等系统实施柔性投产,实现客户无感版本投产。应用系统引入名单机制,通过名单判断执行不同业务流程,探索灰度发布。
五是建立可用性管理驱动机制,严格管控变更对可用率的影响,对于非变更引发可用率纳入专业处室绩效考核,倒逼专业处室完善高可用架构,避免系统故障影响可用率,采取柔性变更降低变更对可用率的影响。
六是探索建立运维非功能需求受理、开发、验收工作机制,运行维护中心提出性能、安全、可靠性、稳定性、可维护性等非功能需求,并参与非功能需求验收。
三、提升运维能力是关键
本着出事可知、出事可控、尽量不出事、安全可控的运维管理逻辑,结合监管要求、同业实践及自身运维管理思考和体会,北京农商银行归纳总结出运维最主要、最紧迫的四项能力,即及时发现问题、快速恢复业务、预防问题发生和信息安全防护的能力。在统一思想、统一目标基础上,采取目标引领、管理驱动等措施持续提升四项能力,这四项基础性运维能力筑牢了,运维安全可控程度也就随之得到提升。
一是及时发现问题的能力,既能保障运维人员及时参与问题分析处理,也为分析处理争取了时间。对每起生产事件设定是否自主发现评价指标,对系统、网络和应用专业设定合理的事件自主发现率指标,驱动各专业处室多措并举完善监控。经过持续努力,事件自主发现率提升到93.6%。
二是快速恢复业务的能力,运维的价值必须通过支撑业务发展来体现,始终强调发生问题时恢复业务为第一要务,避免运维人员陷入因查找问题根源而耽搁业务的误区。北京农商银行总结每起影响业务的生产事件,完善应急处置预案和问题处理手册,优化事件处理流程,提升值班一线、二线和三线应急处置能力。针对服务启停、HA切换、RAC切换等场景,实现运维“一键式”处置,不断提升应急处置和常见问题自动化处置能力。
三是预防问题发生的能力,丙吉问牛典故及海恩法则说明,任何重大事故都是有预兆的,其发生都是经过萌芽、逐步累积到故障这样一个过程,需找准关键提早解决,因此预防问题发生的重要性就不言而喻了。北京农商银行每月组织重要信息系统性能容量分析,建立事件和性能容量管理联动机制;每半年开展性能容量分析,并提早识别双11、理财秒杀、养老助残卡延期等业务营销和关键活动,通过上述措施提前识别性能容量瓶颈并及时扩容软硬件资源。为单电源设备配备STS电源,为单点设备配备冷备机器,将证书和授权有效期纳入CMDB管理,搭建单独低速SAN网络等等,通过隐患梳理和整改预防问题发生。通过持续强化预防问题发生工作意识,使运维人员责任心持续增强,防患未然能力同步得到提升。
四是信息安全防护的能力,随着《网络安全法》《个人信息保护法》《关键信息基础设施安全保护条例》陆续出台,中小银行面临的信息安全防护压力越来越大。北京农商银行引入银行业头部企业信息安全咨询服务,整体评估信息安全薄弱环节,结合法律法规、监管要求、同业实践完善信息安全管理制度,组织加强桌面安全、主机安全、流量监测和溯源处置、一键式封禁、蜜罐等监测和防护措施。在规范安全测试、渗透测试的基础上,采取漏洞扫描设备直接接入数据中心业务网的方式进行漏洞扫描,最大程度发现软硬件漏洞并组织整改,整体提升数据中心安全防护能力。建立7×24小时安全运维队伍,实时监控、分析和处置信息安全事件。积极参与北京市安全防护行动,积极参与农信系统攻防竞赛,内部组织攻防对抗演练,通过实战培训锻炼安全人才。
五是建立能力评价和考核机制,本着目标引领、管理驱动的原则,探索逐步建立起应监控未监控、可用率等能力评价和考核机制,驱动各专业部门快速提升四项能力,有效保障信息系统平稳运行。
四、建设运维中台是解放生产力
“工欲善其事、必先利其器”,运维“监管控析”都离不开强有力的平台支撑。可以说,运维平台的扩展性、有效性、自动化程度都直接决定了运维生产力。特别是,中小银行自主研发能力有限,很难依靠自身能力实现运维平台自主研发和整合,必须做好规划、明确定位、擦亮眼睛、选好厂商,打造适合自己的运维中台。北京农商银行重点从以下几方面强化运维中台建设:
一是引入“流程即服务”IT服务管理平台,依靠流程引擎实现IT服务流程快速订制和发布,将ITIL、ISO20000全面融入IT服务管理平台,通过运维门户发布事件、问题、变更、服务请求等运维流程服务,为全行提供高效的IT服务。
二是建设统一监控平台,整合系统、网络、应用、机房及网点环境监控,实现全行监控统一视图、统一级别和统一处置。通过将机房、网络、系统、应用分层可视化,联动显示运维服务、资源、设备的状态,指导运维人员快速进行运维分析和决策。
三是建设运维自动化平台,全面实施运维投产、巡检和应急自动化,新核心银行系统投产期间126套系统实现版本投产自动化,投产平均耗时为542秒,较手工部署时间节约92%以上。基于目标主机命令输入、捕获输出结果并判断的工作方式实现应用系统深度巡检,较好地替代ECC值班手工巡检工作,弥补了现有系统监控扩展性不足问题。全面推广常见问题处置、安全封禁、本地应急、灾备切换自动化,以“一键式”同城灾备切换演练为例,切换用时是手工方式的1/3,同城灾备切换时间平均为5分钟左右,大幅提升业务连续性管理水平。
四是建设统一运维大数据平台,实现系统、网络、应用日志统一集中管理,利用大数据实时分析日志,实现面向业务、面向应用的TPS、成功率、交易响应时间等监控,利用人工智能算法实现性能容量预测,利用全局流水号实现应用系统链路分析。特别是,北京农商银行已经实现以应用服务网关为交易总线的应用架构,以应用服务网关作为运维大数据监控的重点,可实时监测经过应用服务网关的上下游系统指标异常情况。
五是用好配置管理平台,牢固树立配置管理只有使用才有生命力的理念,将配置管理数据全面应用于统一监控、运维自动化、运维大数据平台,以消费使用促进配置管理数据治理。同时,以自动发现提升配置管理效率,逐步提高配置管理数据准备性。
六是优化组织架构,学习同业好的组织架构实践,成立专职运维平台工具建设的工作小组,统一规划、统筹组织,综合运用大数据、人工智能,打造“监管控析”运维中台。
五、培养运维人才是重要而紧迫的任务
运维工作归根结底还是要人来完成,运维人员的安全意识、主动性、学习能力、沟通能力决定了运维质效,是运维生产力中最具有决定性的力量和最活跃的因素,所以培养人才就显得尤为紧迫、重要。同时,中小银行由于地域、体制、编制等因素,在与互联网大厂、同业的人才竞争中都处于不利位置,解决人才缺口主要靠自己培养,所以培养人才、留住骨干显得十分重要而紧迫。近年来,北京农商行银行在推进运维人才培养方面践行了以下探索:
一是培养一专多能的运行维护队伍,经过多年培养,初步形成一批数据库、网络、安全、机房及精通应用、熟悉业务的骨干,包括5人OCM、2人CCIE、4人CISSP、33人PMP、3人机房建设与管理高级工程师等。
二是持续组织运维大讲堂内部培训,打通专业壁垒,加强系统、网络、中间件、数据库基础理论培训,负载均衡、网络抓包分析等成为员工应知、应会内容。
三是持续开展运维创新,本着“不唯大小,只唯实效”原则,鼓励员工结合运维工作开展运维创新,收获了ELK应用日志监控、B/S探针监控、IP封禁、核心系统柔性投产等一大批运维创新成果。
四是探索技术骨干激励机制,结合业务技术序列管理工作安排,建立运维技术骨干动态评定机制,薪酬分配向技术骨干倾斜,选派优秀骨干担任小组长,培养锻炼人才。