+135 410 16684Mon. - Fri. 10:00-22:00

灾备,数据安全的最后一道防线,您真的需要

灾备,数据安全的最后一道防线,您真的需要

灾备,数据安全的最后一道防线,您真的需要

前言

近日,支付宝和携程双双出现用户无法正常使用的问题,尽管事故原因并不相同,却也为互联网企业的运行安全敲响了警钟。之前并不怎么被人提起的容灾能力建设,也重新回到人们的视野。

5月27日下午,支付宝出现大规模瘫痪,国内很多支付宝用户在PC端和移动端均无法转账付款,这一事故持续了差不多两小时。支付宝方面对外表示,造成此次事故的原因,是由于市政施工使得杭州市萧山区某地光缆被挖断,进而导致支付宝一个主要机房受影响。

404-300x200

第二天,携程又出事了。从当天中午开始,携程官方网站及APP出现了无法正常使用的情况,更为严重的是,这一事故持续了12个小时才被修复,这也引发了外界对携程的种种猜测。最终携程方面给出的解释是,由于员工错误操作,删除了生产服务器上的执行代码。

以前此类事件也发生过,2013年7月,由于上海一条光缆被挖断,就导致微信在很多地区无法正常使用,时间长达7小时;2014年10月,也是因为上海机房出现故障,导致微信全国大面积故障2小时。

灾难的发生虽然是小概率事件,但影响范围大持续时间长,会带来很大的用户流失,严重影响用户体验,对业务造成的损失巨大。

灾备简介

solution-300x183

灾备方案,是指在同城或者异地,建立两套或多套功能相同的系统,系统之间数据进行同期, 并具备健康监测和灾备切换功能。当一处系统因意外停止工作时,整个应用系统可切换到另一处,继续对外提供服务。

灾备实现方式

实现方式有“异地双活”或“两地三中心”等,通过使用阿里云或AWS的各种产品组合,在一处建立主站,部署主系统,另一地云计算节点为灾备站。在两 个站点的云服务器上部署同样的应用系统。通过底层数据复制完成数据同步。备用系统具备随时接管业务的能力,也可在平时支撑只读业务。具体切换流程根据自身 业务特点进行制定。

总结

支付宝的事故偶然因素更大,提前预防的难度也更大,而携程的事故则完全是内部问题。不过,这两起事故都反映出两家企业在容灾工作上的不足和漏洞。一些企业存在误解,认为容灾会增加成本,实际上如果容灾没有做好,出现事故,所带来的损失要远大于容灾的投入。

在系统上线之前就会做好灾备方案,未雨绸缪,将风险控制在最小范围内。