灾备,数据安全的最后一道防线,您真的需要
前言
近日,支付宝和携程双双出现用户无法正常使用的问题,尽管事故原因并不相同,却也为互联网企业的运行安全敲响了警钟。之前并不怎么被人提起的容灾能力建设,也重新回到人们的视野。
5月27日下午,支付宝出现大规模瘫痪,国内很多支付宝用户在PC端和移动端均无法转账付款,这一事故持续了差不多两小时。支付宝方面对外表示,造成此次事故的原因,是由于市政施工使得杭州市萧山区某地光缆被挖断,进而导致支付宝一个主要机房受影响。
第二天,携程又出事了。从当天中午开始,携程官方网站及APP出现了无法正常使用的情况,更为严重的是,这一事故持续了12个小时才被修复,这也引发了外界对携程的种种猜测。最终携程方面给出的解释是,由于员工错误操作,删除了生产服务器上的执行代码。
以前此类事件也发生过,2013年7月,由于上海一条光缆被挖断,就导致微信在很多地区无法正常使用,时间长达7小时;2014年10月,也是因为上海机房出现故障,导致微信全国大面积故障2小时。
灾难的发生虽然是小概率事件,但影响范围大持续时间长,会带来很大的用户流失,严重影响用户体验,对业务造成的损失巨大。
灾备简介
灾备实现方式
实现方式有“异地双活”或“两地三中心”等,通过使用阿里云或AWS的各种产品组合,在一处建立主站,部署主系统,另一地云计算节点为灾备站。在两 个站点的云服务器上部署同样的应用系统。通过底层数据复制完成数据同步。备用系统具备随时接管业务的能力,也可在平时支撑只读业务。具体切换流程根据自身 业务特点进行制定。
总结
支付宝的事故偶然因素更大,提前预防的难度也更大,而携程的事故则完全是内部问题。不过,这两起事故都反映出两家企业在容灾工作上的不足和漏洞。一些企业存在误解,认为容灾会增加成本,实际上如果容灾没有做好,出现事故,所带来的损失要远大于容灾的投入。
在系统上线之前就会做好灾备方案,未雨绸缪,将风险控制在最小范围内。