招行张春林:商业银行故障管理也要讲方法论

网络新闻 2021-07-09 13:41www.168986.cn长沙seo优化

从天灾到人祸,从基础设施损坏到人为操作风险,无论机构规模大小,无论IT成熟与否,互联网+背后隐藏的安全、故障危机四伏。近日,在DRI亚洲年会(DRI BJ2015)上,招商银行数据中心技术管理室主管张春林表示,“黑天鹅事件总是在我们自以为是的时刻发生,猝不可防。”这样的例子比比皆是,支付宝因光缆被挖断而中断2小时,大批用户无法使用支付宝,携程数据遭人为物理删除,飞机、酒店业务全面瘫痪,长达12个小时。

招商银行数据中心技术管理室主管张春林

  每一场“黑天鹅事件”都是一场灾难。

在互联网+的新常态下,企业不仅仅是关注传统的IT系统和数据中心的灾备问题,而是从业务服务角度全方位思考业务连续性问题,不仅仅是停留在管理的概念层面,而是开始研究如何将业务连续性管理的方法论运用到实际工作中,并在整个服务链条上开发出各种新的技术和工具,创造新的商机。

与互联网企业业务相比,金融领域的脆弱性更为突出。张春林阐述了“脆弱性理论”,即金融体系的脆弱性理论告诉我们,金融危机的发生是由金融体系的脆弱性内生决定的。同理,信息科技风险也是由信息系统的脆弱性内生决定的。这样的风险时刻存在,比如万分之四的硬盘坏盘率、数以万计的软件代码的BUG、新老员工更替带来的断层、以已知对抗未知的无奈。

频发的黑天鹅事件带来了诸多启示,关键业务不宕机,数据资产的安全性,这在互联网+时代,变得更加重要。特别是对于银行来说,一旦数据丢失,可能就会给经营带来重大损失。这就需要转换应对危机的思考方式:不要预测,谨慎预防,保证充足的冗余。

故障管理也讲方法论

对商业银行来说,故障的风险始终存在。故障恢复时长(RTO)是衡量业务连续性的关键指标之一,它的长短决定了业务影响程度。总体看,从故障发生开始到故障恢复截止,整个过程包括发现、定位、恢复三阶段。张春林表示,从商业银行故障历史数据看,大多数的故障的处理时长超过30分钟,很多故障无法通过切换来解决。为了提升应急效率,需要缩短故障修复时间,可以通过故障自愈、一键恢复工具、业务补帐工具、流量清洗服务等具体措施实现。

如何解决故障?在招商银行的故障管理实践中也总结出了一套标准的方法论,以争取在最短时间内恢复。总结发现,有25%的故障可以通过重启、隔离、异地切换来解决;60%的故障用高可用架构来解决;10%需要手工诊断解决;另外5%的未知风险则只能依靠专家来解决。

大多数的企业都会遭遇故障管理的难题,而碰到的难点也不少,比如出现故障后不知道如何处理,找不到适当的应急预案,缺少通用故障处理流程,演练不到位,处理不够熟练,应急环境(ECC、工具)缺少规范化管理,无统一指挥和标准化流程等等,这些都会直接影响应急处理的效率。

对不同类型的故障也要有一个发现、总结和场景标准化的过程。张春林分享了招商银行自身的实践案例,一个IT系统的组件数量是有限的,而每个组件的故障种类其实也并不多。无论是A场景还是B场景,只要解决方案是一样的,就可以归类为同一个场景。总结下来,其实情景并不多。以IT的视角,以结果为导向,根据组件发生故障的类型来推导故障原因,就会变得简单很多。

目前招商银行形成了两地双中心的容灾体系,这种异地灾备体系,业务补帐非常重要。由于异地灾备存在时延,深圳和上海双中心运行,两地直线距离1500公里,中间还有传输设备,两地之间有近30毫秒的延迟,双活并非真正意义上的“数据双活”,即使RPO可以做到秒级差异,仍然存在数据差异,因此必须依靠业务补账来弥补。而业务补帐更高效的方式是用自动代替人工,提高效率,进而缩短RTO。

张春林最后建议,目前大多数银行针对应急处置都有自己的一套方法,如何快速有效地处置突发事件,对内外部管理来说都很重要。不过他也坦诚,虽然我们在实践中不断总结各种模型对抗风险,但依然是用已知对抗未知,永远慢半拍,这也意味着业务连续性会一直处于“高压”状态,丝毫不能放松。

Copyright © 2016-2025 www.168986.cn 狼蚁网络 版权所有 Power by