的回城双活 一体化建设,不仅仅是技术的郐觏, 墨是理念的革新,把传绕意 中心转 化成了可以用于分流生产}监务的勖中心,在保障商霹角、提齑嚏努连续 『_丰硬的残暴 银行不断刨耨爽备体系爨 持续保障韭务连续性 交通银行股份有限公司数据中心副总经理 郑仕辉 影响,突发灾难或恶意攻击一直是威胁金融服务的洪水 猛兽。灾害发生时,首要保障的就是用户金融数据的安 全和金融服务的延续,信息系统的容灾能力从未显得如 此至关重要。据美国明尼苏达大学对灾害所造成的影响 分析显示,发生突发灾难后,如两星期无法恢复信息系 统,75%的公司业务将停顿,43%的公司将无法再开展 业务没有实施灾难备份的公司,将在灾后2—3年破产。 在此情形下,业务连续性应运而生。业务连续性指 的是企业在遭到意外突发情况下,快速恢复业务运行的 能力,它来源于灾备恢复技术的发展,更是灾难恢复的 据中,bN总经理郑仕辉 最终目的。商业银行重视业务连续性,既是保障客户资 产安全、提供不问断金融服务的需要,也是满足监管要 ,来自电子渠道的交易已经占到 求的需要。与此同时,业务连续性也是激励商业银行IT 科技创新和发展的动力之一。近十年来,灾备体系建设 )%以上,金融服务已经无处不在, 统需要提供7 X 24小时、365天 始终是国内商业银行信息化建设中的重大课题之一,但 j时,面对来自外部的诸多灾难威 是,商业银行的灾备建设也存在着诸多难题。首先,大 L安全和金融服务的永续经营,是 型商业银行的IT系统通常采用大型机和开放平台的混 J共同关心的课题。 合架构,系统规模庞大,技术复杂,大规模的系统切换 没有成熟的解决方案。其次,灾备体系建设投资巨大, 续性重要性日趋凸显 但是备份中心的IT资源,尤其是投资占比最大的大机 务运营高度依赖于信息系统,信 资源,主要用于开发测试或处于闲置状态,没有得到充 I,N银行的正常运转。在世界范围 分的利用。第三,灾备建设的有效性需要通过生产系统 事故屡见不鲜,造成了重大社会 的真实切换进行验证,而生产系统的灾备切换运行及刨 2015 7/中国金融电脑 25 切风险极高,商业银行的灾备系统往往处于“有备无换” 的状态,其有效性没有经过真实切换的验证。 脚本在生产分区上的执行。整个切换过程,从关闭操作 系统、灾备切换到数据比对及检查等,全部实现了自动 如何破局?路在何方?经过大胆的假设和反复测试 化,大规模集中控制切换技术大大提高了灾备切换任务 验证,交通银行的同城双中心主机、开放一体化解决方 的并行处理效率,缩短了灾备切换的时间,也避免了人 案为上述问题提供了答案。 工误操作的风险。 二、灾备创新——同城双中心 2006年交通银行完成了数据大集中,在上海浦东张 江建立了数据中心,2007年将海外分行系统从香港迁移 到张江数据中心,实现了境内外一体化的数据中心运行。 为保障业务连续性,交通银行于2007年在上海浦西漕 河泾建立了同城备份中心,2008年在武汉建立了异地灾 备中心,形成了“两地三中心”的灾难备份体系。 从2008年至今,交通银行在同城灾备及双活体系 建设方面连续取得了突破性的进展,在国内创造了多个 “第一”。2008年7月,交通银行在国内大行中首次实 现生产系统同城灾备系统切换运行和回切。2009年8月, 在国际同业中首次实现70千米距离的大型机系统同城 双活运行,使得贷记卡系统可以在70千米距离的两个 中心之间平滑分流业务。2011年11月,在国内首次实 现生产系统分钟级的同城灾备切换运行及回切。2012年 l2月,在国际同业中首次实现7O千米距离的开放平台 DB2系统同城双活试点运行。 1.同城灾备切换运行与回切 在建立漕河泾同城灾备中心后,为了验证同城灾备 系统的有效性,经过充分的准备和演练,交通银行于 2008年7月19日成功地将关键业务系统,包括核心账务、 贷记卡、CPS、网上银行、电话银行等从张江数据中心 切换到漕河泾中心,对外运行一天之后,又回切到张江 中心。此次切换和回切均在100分钟之内完成,实现了 零数据丢失,充分验证了同城灾备系统的有效性。为了 缩短切换时间,减少切换对人工的依赖,交通银行自主 开发了大规模灾备自动化切换控制技术,通过集中控制 机集中式管理所有生产分区的切换脚本,协调调度相应 26 FINANCIAL COMPUTER 0F CHINA 2.大机系统同城双活 为了降低灾备建没的投资成本,提高生产系统的可 用性,交通银行在同城灾备体系建设方面进行了深入的 创新实践,实现了大机系统的同城双活运行。在交通 银行实施双活之前,IBM已经提供了大机系统的同城 双活的解决方案,称为GDPS Multi—Site,但是由于光 纤传输延迟会对联机交易性能造成极大的影响,GDPS Multi—Site要求两个中心之问的(光纤)距离不能超过 20千米,其灾备的效果大打折扣。国际上知名的商业银 行,如汇丰和瑞士银行均采用了GDPS Multi—Site的解 决方案,两个中心之间的距离均不到l0千米,而交通 银行的张江和漕河泾中心之间的光纤距离达70千米, Multi—Site技术不能直接应用。 为了突破IBM GDPS Multi—Site技术的限制,交通 银行在对大机SYSPLEX数据共享原理的深入研究和大 量的性能测试的基础上,提出了一种新的大机系统双活 运行架构FDAA(Far~Distance Active Active),通过 自主研发的交易自动映射识别技术,于2009年8月实 现了大机系统在光纤距离7()千米的张江和漕河泾中心 之间的同步运行,漕河泾中心可分流的交易达到核心、 贷记卡系统交易总量的60%,CPU利用率下降40%。 同城双活的成功实施解决了大型机应用领域的重要难 题,也使得传统意义上的同城备份中心转变为生产的副 中心,开创了同城灾备体系建设的新模式。 3.开放系统同城双活 2011年,IBM推出了开放平台跨站点的DB2集 群技术,将其称为GDPC(Geographically Dispersed pureScale Cluster),和GDPC Multi—Site相似,GDPC 要求两个中心之间的(光纤)距离不能超过20千米。 交通银行随即启动了开放平台远距离的同城双活技术的 参报道认为,该事件“改变了长期困扰我国金融行业 研制工作。2012年,在经过大量了性能分时测试之后, 灾备体系建设有备无换的局面,标志着国内商业银行 交通银行将FDAA架构迁移到开放平台,并通过自主研 的灾备体系建设跨入国际先进行业”。在交通银行实 发的交易智能路由器BJD(BOCOM JDBC Driver), 以收富通宝应用为试点,成功实现了7O千米距离的开 现7()千米距离的大机系统同城双活之后,IBM美国 实验室的多位专家,包括GDPS Multi—Site的架构师、 放平台数据库系统同城双活运行。2013~2014年,又 进一步将开放平台同城双活架构推广到二代支付、个人 网银、手机银行等关键业务系统。 4.分钟级灾备切换运行 在大机系统双活运行和大规模灾备切换技术的基 础上,交通银行于201 1年利用海外行业务系统实现了 分钟级灾备切换。参与切换的海外分行生产业务系统 包括:海外行核心业务系统(GEMS)、卡交换系统 (GCPS)、网上银行系统和企业客户信息系统(ECIF) 等。其中GEMS系统和ECIF系统的数据库运行在大 型机上,其余的业务系统的应用服务器端均运行在开 放平台上。 双活架构下的灾备切换达到了预期目标,计划内切 换和回切分别用时13分钟和l2分钟,切换过程对业务 完全透明,没有交易失败或中断的现象;计划外的灾备 切换用时5分钟,切换过程主机核心系统交易中断4分 钟,开放平台系统的业务影响则不到2分钟。无论计划 内还是汁划外切换,RPO均为零,切换过程实现了高度 的自动化,有效控制了切换的时间。分钟级灾备切换的 成功,充分验证了同城双活的有效性。 三、自主创新,保障高可用 交通银行的同城双活一体化建设,不仅仅是技术的 创新,更是理念的革新,把传统意义上的灾备中心转化 成了可以用于分流生产业务的副中心,在保障高可用、 提高业务连续性方面取得了丰硕的成果。 交通银行在灾备体系建设的过程中,屡屡创下多项 国际国内的“第一”,在业界产生了重要的影响。在 2008年交通银行实现同城灾备切换运行后,新华社内 存储实验室主任等,先后到交通银行调研交流,对交 通银行的双中心运行给予了高度的评价。IBM公司出 具的评价认为,交通银行解决了交易性能随距离下降 的难题,实现了大机系统远距离双中心运行的突破, 在国际上处于领先地位。2010年8月,时任银监会主 席的刘明康亲临交通银行数据中心观摩了大机生产系 统双中心切换运行,对交通银行双中心运行的成果给 予了充分的肯定和认可。 值得一提的是,以上在主机、开放同城双活和大规 模自动切换控制领域的关键技术,均为交通银行自主研 发,拥有完全的知识产权,目前,相关创新的技术已经 申请了l0项专利(其中两项为美国专利),目前已经 获得3项中国国家专利授权和1项美国国家专利授权, 其余申请也在受理和公开之中。 交通银行同城双活的创新实践为商业银行降本增 效,充分利用备份中心的闲置资源分流业务提供了可供 参考的范例,推动了行业的进步和发展,取得了显著的 社会经济效益。在实现大机系统双中心运行之前,交通 银行几乎每年都要进行大机系统CPU容量的扩充。在 实施双中心之后,可以充分利用漕河泾副中心的大机资 源来分流生产业务,累计节省的CPU升级扩容费用超 过4亿元。关键业务系统的双中心运行提高了生产系统 的弹性扩展能力和可用性,使得交通银行能够从容应对 元旦、春节、淘宝双十一等业务高峰,对于维护银行的 声誉和业务的发展具有重要意义。分钟级灾备切换的实 施有效提升了交通银行的业务连续性,使得交通银行同 城备份中心的灾难恢复等级达到国际和国家标准的最高 等级,对于交通银行的拓展业务、提高服务水平、提升 综合竞争力具有重要意义。嘲 2015 7/中国金融电脑 27