安华信达（SECSINO）-信息安全咨询专家

新闻资讯

中小银行信息科技运维管理的探索与实践

信息来源：

随着数字经济的发展和同业竞争的加剧,信息科技对银行核心竞争力的影响日益显著。在此背景下，作为中小银行的城商行、农商行和农信社，受限于环境、体制、人才和投入等因素，信息科技发展整体处于智慧化的初级阶段。

北京农商银行作为一家区域性农村商业银行，2020年成功跻身万亿商业银行行列，在英国《银行家》2020年全球1000家银行排名中，资产规模排名146位，连续十年蝉联“年度最佳农商银行”。本文结合北京农商银行管理实践，分享运维管理如何强基础、补短板、抓规范、促提升，以期助力中小银行积极探索契合自身发展的信息科技运维道路。

一、规范运维管理是基础

运维工作标准化、规范化是稳定运维服务质量，提升组织服务能力的重要手段，可以说运维工作标准化、规范化只有进行时，永远在路上。运维无小事，且事关科技运维安全稳定运行，必然需要通过制度和流程来规范运维工作。对此，北京农商银行着重从以下几方面强化运维管理规范：

一是全面应用ITIL流程，通过ISO20000信息技术服务管理质量认证体系，确定“安全可控合规高效”运维指导思想，制定了涵盖事件、问题、变更、能力、可用率管理等的管理办法、细则、手册，设立了重要信息系统实际可用率、网络受病毒威胁程度、ATM可用率等43项运维风险监测指标，季度开展指标分析和改进工作。

二是以事件、问题、变更规范管理为切入点，逐步扩展到性能容量、可用率等深层次管理领域。从解决频发、多发问题，逐步提升到举一反三、预防问题发生。

三是规范操作系统、中间件和数据库等版本，定期评估可接受版本和推荐版本，结合版本生命周期，组织基础软件版本升级，杜绝版本停止服务支持的风险。

四是完善信息系统生命周期管理，加强系统废止管理，及时关停被替代的老系统或交易量不大的信息系统，释放服务器、网络和机房空间等资源。

二、落实高可用架构和运维是前提

不出事是衡量运维工作的主要标准，稳定可靠的高可用架构是不出事的前提，而高可用性贯穿应用程序、数据库、操作系统、服务器、网络和机房基础设施，也贯穿运维全生命周期。北京农商银行以可用性管理为切入点，认识到单点故障和变更实施是高可用性最大的敌人，痛定思痛，通过消除单点、柔性变更等措施提高信息系统可用率。

一是规范前端、应用、数据库架构，淘汰HA技术，WEB层、应用层全面应用集群模式，数据库全面使用RAC，杜绝架构单点风险，确保架构高可用性。

二是建设架构简单、易于维护、灵活调度同城双活架构，渠道接入采用域名解析实现客户端接入流量调度，支付结算类系统同时接入人行、银联、农信银双中心，同城双中心之间应用尽量不交叉访问，中心内部通过应用服务网关实现应用系统之间调度，数据库采用成熟稳定MAA架构，核心、柜面、手机银行、互联网支付、二代支付等22套重要应用系统及重要支撑系统实现同城双活运行。

三是全面应用云计算、虚拟化、多租户等技术，发挥弹性拓展、快速供给、故障自动隔离等优势，实现PC服务器、小型机、数据库资源复用，生产环境云化比例达到51.36%，开发测试云化比例达到95%。

四是学习借鉴互联网经验，在应用服务网关、新核心银行系统引入限流和熔断机制，实现异常情况故障隔离和管控。加强负载均衡和应用集群节点之间联动，待负载均衡会话结束后再停止集群节点应用并投产，在核心系统、应用服务网关等系统实施柔性投产，实现客户无感版本投产。应用系统引入名单机制，通过名单判断执行不同业务流程，探索灰度发布。

五是建立可用性管理驱动机制，严格管控变更对可用率的影响，对于非变更引发可用率纳入专业处室绩效考核，倒逼专业处室完善高可用架构，避免系统故障影响可用率，采取柔性变更降低变更对可用率的影响。

六是探索建立运维非功能需求受理、开发、验收工作机制，运行维护中心提出性能、安全、可靠性、稳定性、可维护性等非功能需求，并参与非功能需求验收。

三、提升运维能力是关键

本着出事可知、出事可控、尽量不出事、安全可控的运维管理逻辑，结合监管要求、同业实践及自身运维管理思考和体会，北京农商银行归纳总结出运维最主要、最紧迫的四项能力，即及时发现问题、快速恢复业务、预防问题发生和信息安全防护的能力。在统一思想、统一目标基础上，采取目标引领、管理驱动等措施持续提升四项能力，这四项基础性运维能力筑牢了，运维安全可控程度也就随之得到提升。

一是及时发现问题的能力，既能保障运维人员及时参与问题分析处理，也为分析处理争取了时间。对每起生产事件设定是否自主发现评价指标，对系统、网络和应用专业设定合理的事件自主发现率指标，驱动各专业处室多措并举完善监控。经过持续努力，事件自主发现率提升到93.6%。

二是快速恢复业务的能力，运维的价值必须通过支撑业务发展来体现，始终强调发生问题时恢复业务为第一要务，避免运维人员陷入因查找问题根源而耽搁业务的误区。北京农商银行总结每起影响业务的生产事件，完善应急处置预案和问题处理手册，优化事件处理流程，提升值班一线、二线和三线应急处置能力。针对服务启停、HA切换、RAC切换等场景，实现运维“一键式”处置，不断提升应急处置和常见问题自动化处置能力。

三是预防问题发生的能力，丙吉问牛典故及海恩法则说明，任何重大事故都是有预兆的，其发生都是经过萌芽、逐步累积到故障这样一个过程，需找准关键提早解决，因此预防问题发生的重要性就不言而喻了。北京农商银行每月组织重要信息系统性能容量分析，建立事件和性能容量管理联动机制；每半年开展性能容量分析，并提早识别双11、理财秒杀、养老助残卡延期等业务营销和关键活动，通过上述措施提前识别性能容量瓶颈并及时扩容软硬件资源。为单电源设备配备STS电源，为单点设备配备冷备机器，将证书和授权有效期纳入CMDB管理，搭建单独低速SAN网络等等，通过隐患梳理和整改预防问题发生。通过持续强化预防问题发生工作意识，使运维人员责任心持续增强，防患未然能力同步得到提升。

四是信息安全防护的能力，随着《网络安全法》《个人信息保护法》《关键信息基础设施安全保护条例》陆续出台，中小银行面临的信息安全防护压力越来越大。北京农商银行引入银行业头部企业信息安全咨询服务，整体评估信息安全薄弱环节，结合法律法规、监管要求、同业实践完善信息安全管理制度，组织加强桌面安全、主机安全、流量监测和溯源处置、一键式封禁、蜜罐等监测和防护措施。在规范安全测试、渗透测试的基础上，采取漏洞扫描设备直接接入数据中心业务网的方式进行漏洞扫描，最大程度发现软硬件漏洞并组织整改，整体提升数据中心安全防护能力。建立7×24小时安全运维队伍，实时监控、分析和处置信息安全事件。积极参与北京市安全防护行动，积极参与农信系统攻防竞赛，内部组织攻防对抗演练，通过实战培训锻炼安全人才。

五是建立能力评价和考核机制，本着目标引领、管理驱动的原则，探索逐步建立起应监控未监控、可用率等能力评价和考核机制，驱动各专业部门快速提升四项能力，有效保障信息系统平稳运行。

四、建设运维中台是解放生产力

“工欲善其事、必先利其器”，运维“监管控析”都离不开强有力的平台支撑。可以说，运维平台的扩展性、有效性、自动化程度都直接决定了运维生产力。特别是，中小银行自主研发能力有限，很难依靠自身能力实现运维平台自主研发和整合，必须做好规划、明确定位、擦亮眼睛、选好厂商，打造适合自己的运维中台。北京农商银行重点从以下几方面强化运维中台建设：

一是引入“流程即服务”IT服务管理平台，依靠流程引擎实现IT服务流程快速订制和发布，将ITIL、ISO20000全面融入IT服务管理平台，通过运维门户发布事件、问题、变更、服务请求等运维流程服务，为全行提供高效的IT服务。

二是建设统一监控平台，整合系统、网络、应用、机房及网点环境监控，实现全行监控统一视图、统一级别和统一处置。通过将机房、网络、系统、应用分层可视化，联动显示运维服务、资源、设备的状态，指导运维人员快速进行运维分析和决策。

三是建设运维自动化平台，全面实施运维投产、巡检和应急自动化，新核心银行系统投产期间126套系统实现版本投产自动化，投产平均耗时为542秒，较手工部署时间节约92%以上。基于目标主机命令输入、捕获输出结果并判断的工作方式实现应用系统深度巡检，较好地替代ECC值班手工巡检工作，弥补了现有系统监控扩展性不足问题。全面推广常见问题处置、安全封禁、本地应急、灾备切换自动化，以“一键式”同城灾备切换演练为例，切换用时是手工方式的1/3，同城灾备切换时间平均为5分钟左右，大幅提升业务连续性管理水平。

四是建设统一运维大数据平台，实现系统、网络、应用日志统一集中管理，利用大数据实时分析日志，实现面向业务、面向应用的TPS、成功率、交易响应时间等监控，利用人工智能算法实现性能容量预测，利用全局流水号实现应用系统链路分析。特别是，北京农商银行已经实现以应用服务网关为交易总线的应用架构，以应用服务网关作为运维大数据监控的重点，可实时监测经过应用服务网关的上下游系统指标异常情况。

五是用好配置管理平台，牢固树立配置管理只有使用才有生命力的理念，将配置管理数据全面应用于统一监控、运维自动化、运维大数据平台，以消费使用促进配置管理数据治理。同时，以自动发现提升配置管理效率，逐步提高配置管理数据准备性。

六是优化组织架构，学习同业好的组织架构实践，成立专职运维平台工具建设的工作小组，统一规划、统筹组织，综合运用大数据、人工智能，打造“监管控析”运维中台。

五、培养运维人才是重要而紧迫的任务

运维工作归根结底还是要人来完成，运维人员的安全意识、主动性、学习能力、沟通能力决定了运维质效，是运维生产力中最具有决定性的力量和最活跃的因素，所以培养人才就显得尤为紧迫、重要。同时，中小银行由于地域、体制、编制等因素，在与互联网大厂、同业的人才竞争中都处于不利位置，解决人才缺口主要靠自己培养，所以培养人才、留住骨干显得十分重要而紧迫。近年来，北京农商行银行在推进运维人才培养方面践行了以下探索：

一是培养一专多能的运行维护队伍，经过多年培养，初步形成一批数据库、网络、安全、机房及精通应用、熟悉业务的骨干，包括5人OCM、2人CCIE、4人CISSP、33人PMP、3人机房建设与管理高级工程师等。

二是持续组织运维大讲堂内部培训，打通专业壁垒，加强系统、网络、中间件、数据库基础理论培训，负载均衡、网络抓包分析等成为员工应知、应会内容。

三是持续开展运维创新，本着“不唯大小，只唯实效”原则，鼓励员工结合运维工作开展运维创新，收获了ELK应用日志监控、B/S探针监控、IP封禁、核心系统柔性投产等一大批运维创新成果。

四是探索技术骨干激励机制，结合业务技术序列管理工作安排，建立运维技术骨干动态评定机制，薪酬分配向技术骨干倾斜，选派优秀骨干担任小组长，培养锻炼人才。

主营业务

公司产品

创新研究

中小银行信息科技运维管理的探索与实践