财务专栏
当前位置: 首页 > 金融专栏 > 产融结合

浅谈财务公司灾备建设

来源: 时间:2016-04-27 【字号:

    一、灾备建设的重要性
    为加强商业银行数据中心风险管理,保障数据中心安全、可靠、稳定运行,提高商业银行业务连续性水平,中国银行业监督管理委员会2010年下发了《 商业银行数据中心监管指引》规范。
    银监会在通知中指出,商业银行应于取得金融许可证后两年内,设立生产中心;生产中心设立后两年内,设立灾备中心。商业银行数据中心应配置满足业务运营与管理要求的场地、基础设施、网络、信息系统和人员,并具备支持业务不间断服务的能力。
    遇到天灾人祸,银行等金融企业应该如何应对,其实很早就有异地灾备等措施,为了应对突如其来的灾难,欧美很多金融机构早在大数据信息时代来临之际就着手进行灾难备份并加强对业务连续性系统的建设工作。但是,直到美国2001年“911事件”发生之后,金融行业才首次真正重视金融灾备,并投入大量财力保证业务连续性。
    美国“911事件”发生后,世界及美国金融机构聚集的世贸大厦里的大量数据化为乌有,这是对所有金融机构的重大挑战。德意志银行早在1993年就制订了严谨、可行、可信的业务连续性计划,灾难发生后,德意志银行调动4000多名员工及全球分行的资源,短时间内在距离纽约30公里的地方恢复了业务运行,得到了客户和行业的好评。
    摩根士丹利在世贸大厦25层的办公场所全毁、3000多员工被迫紧急疏散的情况下,仅半小时内就在灾备中心建立了第二办公室,第二天就恢复全部业务,可谓金融灾备的典范。
    与之相反,纽约银行在数据中心全毁,通讯线路中断后,缺乏灾备系统和有力的应急业务恢复计划,在一个月后不得不关闭一些分支机构,数月后不得不破产清盘。
    “911事件”后,全球金融业都认识到金融灾备的必要性和重要性,这是金融业在灾难发生时合理避险、快速恢复、稳定运行的关键。
    二、我司灾备现状
    我司成立时间虽然较短,在信息化建设时结合现有的机房条件,也部属了一些必要的灾备措施,具体灾备建设情况如下:
    (一)数据备份
    1、数据库备份
    我司核心应用系统数据库采用Oracle 11gR2企业版,针对核心应用数据库的备份,采用自动及手动两种方式完成。
    1)自动备份:
    利用Oracle自带的归档功能,通过记录每次的数据库变更语句,确保可将数据库恢复到以秒计的任意时点;同时采购部署了EMC公司成熟的备份技术,利用EMC Networker备份软件通过RMAN将所有数据及归档日志备份至EMC虚拟带库当中,灾难发生时可充分保证我司拥有可用数据。
    2)手动备份:
    合作软件开发商配合我司办公室在每日19点营业时间过后,对数据库进行全表导出并刻盘存档,并定期对数据库控制文件、网络配置文件等进行手工处理备份。每日将备份的数据存放至银行保险柜中。采用此种方式可确保在灾难发生时最低可保障财务公司拥有前一天数据,该手段是自动备份方式的一种有益补充,非常重要。
    2、操作系统及配置文件备份
    财务公司核心应用系统及数据库系统的基础环境均基于“VMware云技术”构建,通过VMware快照技术将操作系统及配置文件备份至磁盘阵列内,并通过EMC Networker备份软件备份至虚拟带库,可大幅提升核心应用系统及数据库系统的可用性。
    (二)、系统切换
    系统切换是指我司核心应用系统因应急演练或发生故障无法正常运行时,将核心应用系统从生产系统整体或部分迁移至备份系统继续运行的过程。
目前财务公司的核心系统均基于“VMWare云技术”构建,通过vSphere技术将4台高性能物理机加以整合,形成一个大容量的计算资源池。核心系统应用及数据库均部署于此资源池当中。
    核心应用系统及数据库系统均采用“双机热备”方式部署,并结合虚拟化平台的“在线迁移”技术,基于服务器、存储和网络连接的完全虚拟化,支持在虚拟机不停机的情况下将一台虚拟机从一个宿主服务器上迁移到另外一台宿主服务器上,这样可以非常方便的在不影响业务的前提下对宿主机进行维护。
    “在线迁移”技术通过集群文件系统来控制对虚拟机存储器的访问,使得在进行实时迁移的过程中,虚拟机的活动内存和准确的执行状态可以通过高速网络,快速从一台服务器传输到另一台服务器,对虚拟机磁盘存储器的访问被即刻切换到新的物理主机。我司核心系统的网络也完成了虚拟化部署,因此虚拟机还可以保留其网络标识和连接,从而确保核心业务系统的无缝迁移。
    日常情况下通过上述技术手段保障数据库及核心应用服务分别运行在多台物理服务器上,一旦有异常发生,故障机器将通过“在线迁移”技术自动迁移至其他可以正常工作的服务器上,配合操作系统底层内建的“双机热备”机制,为核心应用系统及数据库系统提供可靠性、可用性的双重保障。
    1、有计划切换
    有计划切换指即将发生可预见灾难、演练或系统升级改造时,将正常运行的核心系统整体或部分按计划切换至备份系统继续处理日常业务。
    考虑各地成员单位访问系统的需求,对应用系统设置了浮动IP地址,浮动IP地址依照节点的活动与否指向不同的硬件设备。存储使用磁盘阵列方式,与浮动IP相似,依照节点的活动情况进行动态挂接。
    有计划切换时需手工停止操作系统的双机热备服务,再将浮动的IP地址及存储资源手工挂接到需要使用的硬件系统上,后续手工启动数据库、应用服务器等程序后即可正常处理日常业务。
    2、故障切换
    故障切换是指核心系统发生重大故障等突发灾难事件时,将生产系统整体切换到备份系统。故障切换分为自动切换和人工切换两种方式,其中:
    1)自动切换方式是指在业务数据零丢失的前提下,无须人工干预的系统切换过程。核心系统发生应用系统或硬件设备等故障时,应采用自动切换方式将生产系统整体或部分从运行中心切换至备份系统继续运行。
    2)人工切换方式是指在业务数据秒级丢失的情况下,人工干预系统切换全过程的系统切换方式。
    操作系统的双机热备服务会实时监测应用服务器的状态,若监测到活动节点运行不正常,将启动自动切换工作,自行激活备用节点,同时将浮动IP地址指向备用节点,再将盘阵同步挂接到备用系统上,待上述工作完成后再调用事先编写的脚本文件启动数据库及应用程序,从而实现全面接管业务的执行,从业务角度看系统会不中断或短暂中断,参考前期演练数据,中断时间可控制在十分钟内,之后整个系统将恢复正常。
    当自动切换程序未能正常启动业务系统时,即需要人工介入,手工进行剩余部分的切换工作,从而完成备用系统的启用。
    3、系统回切
    系统回切是指当原生产设备故障修复后,将生产系统从备份系统整体或部分迁移回到生产系统的过程。
    考虑到操作系统的双机热备服务启动后,一旦监测到原有的活动节点正常运行后,双机热备服务会自动将已在备份机上运行的系统回切到原有的活动节点,因此在进行系统修复时应停止操作系统的双机热备服务,确保操作系统的双机热备服务不会意外进行自动切换。
    系统回切应用遵循有计划切换的原则,全程需要手工切换,以保障回切过程安全可控。
    三、灾备工作的后续建议
    目前国有大型银行基本上是采用“两地三中心”的模式,即同城除了有一个灾备中心以外,异地也有一个灾备中心,这样就可以应对战争、重大灾难等极端情形。确保当一个机房出问题时,系统会切到同城或者异地的灾备中心。
    为了更安全的备份存储相关资料,我司可考虑采用双中心的方式完善灾备系统建设。
    可考虑在同城(北京)设立第二数据中心,采用“双活”数据中心架构设计。后续也也可考虑异地数据级灾备机房的建设,最终实现 “两地三中心”架构的基础运行环境,并结合有效的管理手段完善我司的整体灾备体系。
    现阶段可借助集团现有资源,考虑利用集团的机房或者集团下属的大型企业的机房,建立财务公司自己的灾备系统。优点是不需要财务公司自己重新建设机房,建设及维护成本较低。维护方面可以借助集团或者下属大型企业信息科技的力量,对于机房进行定期巡检及维护;不足是受限于集团或者集团下属企业的硬件设施,是否有合适的机房供财务公司做灾备,机房是否有足够空间。目前我司正在积极和集团针对此事进行沟通,希望能够找到合适灾备场所。
    除借力集团现有资源外,还可以考虑租用电信运营商的IDC机房/机柜。目前有些商业银行采用了这种灾备模式。财务公司行业中是否有采用此种方式建立灾备,仍需与同行积极交流。

作者:
摄影: