|
银联跨行交易系统缘何瘫痪9小时?关键业务部门应急响应为何如此迟滞?作为此事件的受影响者,中国银联持卡人能否获得赔偿?
4月20日上午10点56分,中国银联的网络故障导致全国跨行交易查询系统
完全瘫痪,全国大部分地区所有银行跨行交易包括POS刷卡、跨行ATM查询取款全部中断。北京、上海、广州等主要城市无一幸免。至晚上8点,中国银联跨行交易网络才全面恢复正常。这是2002年中国银联成立以来,首次因系统故障造成的全国性跨行交易全面瘫痪。
瘫痪原因是什么?
作为国内惟一跨行支付清算系统,中国银联承担着我国银行间绝大多数的跨行交易,在经济生活中扮演着极其重要的角色。然而,是什么原因导致这样一个花费巨额资金重点建设的信息系统突然瘫痪?
某银行技术部副总经理回忆当时的情况说,当时我们发现跨行交易无法完成,数据发出后得不到响应时,一度非常紧张。这是重大的故障问题,如果问题是由我们银行引起的,我们需要承担相当大的责任,经过检查确定问题不是出在我们这边后,我们开始寻找其他原因。当时我们就感到很奇怪,主路由器是畅通的,但是我们这边确实无法连接到主机。
就当外界对银联系统瘫痪进行各种假设和猜测的时候,记者24日从一位知情人士处得到可靠消息,导致银联系统瘫痪的原因就是该系统的主机宕机。
原来银联计划在4月25日上线一台新设备,20日下午,正当银联技术人员进行测试的时候,系统主机突然出现宕机,导致整个系统的瘫痪,全国跨行交易无法正常进行。4月26日,中国银联发布了官方解释,“此次故障原因是由于银联新近准备上线的某外围设备的隐性缺陷诱发跨行交易系统主机缺陷,致使主机发生故障。”
某银行信息技术部处长认为,主机宕机或者主机故障这个说法值得推敲。“现在银行都有双机备份,当主机宕机之后,另一个备份机可以接管系统,保证系统的正常运行,从主机切换到备份机的时间不会很长。”他说,“中国银联系统中断近9个小时,很可能是因为银联主机宕机以后,主机冗余不足或者备份机根本没有起作用,或者当初应急系统设计和建设不够理想,又或者是中国银联新上的系统和原系统有冲突,导致整个系统瘫痪。”
某银行技术部副总经理表示赞同该处长的分析。他表示,虽然中国银联指出是由于网络故障导致系统瘫痪,但是银联应该是有两套路由,一套是中国电信提供,一套是中国网通提供,如若主干网的路由断掉,主机应当可以自动切换到另一路由,并将其启动。“如果说是主机宕机,那真有可能是主机在备份上的准备严重不足。”
应急措施哪去了?
中国银联用了近9个小时来处理主机宕机造成的系统瘫痪,在这近9个小时中银联的灾备和应急系统的应有作用为什么没有得到发挥?
据某业内人士指出,中国银联现在正在做容灾,而且也正在做其他银行的远程灾备外包项目,银联应当具备并且肯定也部属了应急系统。
某银行技术部副总经理认为,备份系统肯定要比生产系统的成本高,那么就要根据企业的经济情况和承受能力,分析本企业哪些业务是要重点保护的,哪些是次要的,然后再根据不同的等级建设不同的应急系统,这个工作一定要做扎实。尽管建立一个与原系统同等规模的备份系统或者应急系统,不仅成本高,也比较困难,但对于中国银联这样的运行着异常重要的数据交换业务的业务部门而言,部署这样一套方案,在资金上并不存在太多压力,“事实上,就我所知,中国银联用于备份上的投入比我们银行多得多,在这种前提下还出如此大的差错,实在无法理解。”他说。
中国银联发布的官方说法是:“故障发生以后,中国银联立即启动了技术、生产、客户服务等方面的紧急应对预案。首先,我们组织技术专家团队进行故障排查和抢修,并本着稳妥的原则,逐步恢复了各地的跨行交易。至20日晚8点,银联跨行交易网络已经全面恢复正常。同时,我们及时与各成员银行取得联系,及时告知事件的最新进展情况;我们也通过全国的分支机构和95516客服热线向广大的商户和持卡人说明故障的情况;此外我们还在第一时间通过中国银联官方网站和新闻媒体将事件做了通报,并表达了对成员机构、商户和持卡人的歉意。”
另据知情人士向记者透露,这一次宕机事件,反映出中国银联事前对产品测试中可能出现的问题估计不足,并没有估计到系统瘫痪的面积会如此之大、情况如此严重,事先所准备应急预案只不过是针对小范围的故障的。
应急系统不能是摆设
某软件厂商安全部门副总表示,如今一提到安全,总是会提到灾备系统或者恢复系统,总是提到主机备份,但是中国银联的事件再次说明了,在没有对问题严重性形成足够重视的前提下,再好的灾备系统,也有可能无法奏效。“现在很多问题往往出现在管理层面上,出现在灾难来临之前防范措施组织得不够严密,或者管理上的某些环节被忽视掉了。所以我觉得应该建立一套严密的管理制度,建立一套应急的预案,很多工作还是要做的,这才是最关键的。”他说。
自4月20日中国银联宕机事件发生以来,对于持卡百姓是否会得到赔偿一直被大家所关注。普遍的观点是,由于持卡人只与发卡银行订立约定,与中国银联没有直接合同关系,所以中国银联不会赔偿持卡人损失;而至于持卡人是否会得到发卡银行的赔偿,那可能就要看持卡人是否能够对自己的损失做出足够有力的举证。“为错误所付出的代价越大,改正错误的决心就越强烈,缺乏竞争机制也使得中国银联在处理危机时反应速度偏慢。”某经济法律师说。
国家计算机网络应急技术处理协调中心的某专家表示,在建立应急系统之后,有没有进行测试,从而确保从原系统到应急系统的过渡能够满足要求;有没有明确这种切换的操作流程;有没有反复演练和培训,既要让相关人员熟练掌握,还要考虑到重大事件中的管理职责的指定,最重要的是,不能因此而导致切换的效率超过底线。
“运行系统中经常需要升级、改造、或者增加新的设备,这些工作都是具有一定的风险的,因此,升级改造之前都需要经过离线系统的模拟测试,增加的新设备要做充分的入网测试等等。作为应急系统,因为只有很低的概率才会启用,因此有时候会有流于形式或者疏于演练的情况发生。所谓流于形式,指的是形成的应急预案不能够真正适应紧急事件发生时的具体情况,从而无法发挥作用;所谓疏于演练,指的是有时候大家对应急的流程已经很不熟悉、应急所需要的一些资源可能已经得不到保障等等。最后,可能还有一个需要考虑的事情,就是随着运行系统的发展,应急系统也需要保持同步的升级和发展,才可能有效地切换。”该专家表示。
评论:我们需要什么样的金融网络
4月20日,银联的网络系统因主机原因出现了“大面积”的瘫痪,导致北京、上海、广州、江苏、浙江、福建等地的银行卡不能跨行交易达8小时之久,其涉及范围之广、网络瘫痪时间之长,为银联有史以来的第一次,也是金融系统最大的一次,它的发生再次凸现了金融的网络安全问题。
当然,世界上没有100%的安全,绝对的金融安全是没有的。建立在IT系统平台之上的金融业务交易本来就充满了很多的变数,由于IT系统的脆弱性,出现金融业务交易风险随时都有可能。去年,某国有银行也曾经发生了类似的事情。事实上,不出问题才是不正常的。但是出了问题,如何在规定的时间和范围内及时恢复业务交易才是我们应该研究和关注的。金融是关系国家经济命脉的行业,它的这种特点决定了其对风险防范的重视程度要胜过其他的行业。在国际上,对金融灾难恢复的等级划分是非常严密和细致的,每个等级的灾难恢复都有相应的时间规定,特别是重要业务的数据恢复要求更为严格,像银联网络从瘫痪到恢复持续8小时是不正常的现象。这种不正常现象直接反映了我们的应急系统的严重滞后,某种程度上暗示了我们的金融安全防范意识的不强和管理水平的低下。
据笔者了解,目前我国银行业的灾难恢复工作进展不大,灾难备份多在1级和2级左右,也就是数据有非实时的异地存储,但很少有商业银行达到3级或3级以上的。(ccw)
知道银行信息系统如何设计的人,不会向银行存一分钱;
知道股市内幕的人,不会向股市投一分钱
知道银行信息系统如何设计的人,不会向银行存一分钱;
知道股市内幕的人,不会向股市投一分钱 [/B]
太极端了,只要你真的清楚怎么回事,你就会想办法去规避风险。
世界上任何事情都有风险,每走一步或者不走都有危险呢,那你就不走吗?
呵呵,不去股市有可能,但不存钱到银行,那就真的可以归隐山林,与丛林野兽为伴了啊。
希望银联能够以这次的代价换来以后的平安。
知道银行信息系统如何设计的人,不会向银行存一分钱;
知道股市内幕的人,不会向股市投一分钱 [/B]
知道股市内幕的人,岂不是赚翻了.向往...
知道系统怎么设计的就不买保险、股票、不存钱了,那是不是知道饭怎么做的就不吃饭了呢?简直胡说 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|