文:石丹 灾难,如同悬在现代企业头顶的一把达摩克利斯剑,不知什么时候会落下来。那些因灾难而丢失关键数据并且在几天内不能恢复关键业务的企业将会从市场上消失。 拥有灾备系统的企业,或许永远不会遭遇到毁灭性的灾难;但不拥有灾备系统的企业,一旦成为灾难的受害者,或许永远也站不起来。因此,八项注意的第一项就是:切勿忽视小概率事件。 摩根士丹利创造的奇迹 在“9·11”恐怖事件造成世贸大厦倒塌后,在世贸大厦租有25层的金融界巨头摩根士丹利公司却能够在9月12日恢复营业。之所以能创造这样一个奇迹,在于它不仅像一般公司那样在内部进行数据备份,而且在新泽西州建立了灾备中心,并保留着数据备份,从而保障了公司全球业务的不间断运行,有效降低了灾难对于整个企业发展的影响。 同样幸运的还有RLI保险公司和FredAlger基金管理公司。 研究显示,各行业最长可忍受的信息系统停机时间分别为:金融业—2天;销售业—3.3天;制造业—4.9天;保险业—5.6天。平均来看,一般行业可忍受的信息系统停机时间为4.8天。而各研究机构的数字表明,在各种突如其来的灾难过后,由于数据丢失等原因,只有大约20%的企业能够存活下来。

而存活下来的这些企业,或多或少都在灾难发生前就建立了一套备份系统,不仅在灾难发生的时候帮助企业把损失降低到最小,更是在建设的过程中就发现了潜在的问题和遗留的风险,从而做到防患于未然。 灾备系统的成本思考 数据表明,西方发达国家的一般公司其IT总预算的7%~15%是用于灾难恢复的,这意味着这些公司每个月要支付5万~10万美元的费用,而大型公司这一数字可能达到每个月100万美元。灾难是小概率、高风险事件,灾难备份却是高投入、低效率事件。因此,灾难备份不是无谓投入,关键还是要看公司的需求是什么、什么数据才需要备份,需要一个专业的团队来做灾备成本效益评估,并循序渐进,从而用最少的资金达到尽可能好的效果。 Where?选址中的硬伤 灾备中心的选址要根据企业想要防备的灾难来确定。建筑的平面规划、设备的运输、消防系统的完善、供电能力的强弱、避雷和接地系统的构建都应当成为考虑因素。 而在同城还是异地建立灾备中心也需要长远规划。如果系统性能是最优先的考虑对象,能够接受备份中心数据更新的较小延迟,就可以考虑采用异地数据复制方式。如果避免数据丢失是最优先的考虑,生产主机的工作负载能够承受同步拷贝带来的性能损失,运行中心和备份中心的距离不超过100公里,那就可以考虑采用同步数据复制方式。 对于数据宝贵、安全性要求高、依赖信息技术强和有保障高度业务持续性要求的大型企业,则应该考虑两种方式的相互结合,这样才能确保关键数据的万无一失。 Who?谁来管理灾备系统 一般说来,风险管控、应急响应等都应该是董事会来负责,但是具体涉及到业务连续、IT灾备建设等就是企业CIO或者首席风险官的事情了。首席风险官应该是在风险管理、控制方面非常有经验的人,而CIO则应该是对IT系统评估、备份、灾备建设应用非常了解。同时,也可以在公司内部设立内部协调管理人,具备业务连续管理职能,协助各个部门做计划预案。 How?通过演练检验灾备系统 灾备系统在建立好之后,一定要常常演练以发现可能忽略的问题。但需要注意的是,演练应该在不影响正常生产的前提下进行,克隆某个时间点的所有数据环境,然后在这个环境下进行演练。 灾备对企业而言,并非是可有可无的事情。企业要长治久安、持续发展,就必须要有灾备意识。就目前看来,未来的灾备管理趋势是从高端企业开始向中小企业扩展,从外资企业向国有企业扩展,从金融企业向其他企业扩展。 灾难管理的20条准则 1.花钱不代表解决了一切,硬件性价比逐年提升,但业务连续性的投资不一定更经济; 2.从零开始; 3.剔除所有单点故障; 4.维持高度系统安全性; 5.整合所有服务器; 6.将所有共通性的工作自动化,避免误操作; 7.将一切记录下来,程序、开发文档、操作手册、应用手册等; 8.制订服务水平协定; 9.及早规划; 10.测试演练; 11.维持分散式环境; 12.将故障隔离; 13.了解系统历史情况数据; 14.构筑以符合未来的成长; 15.选择成熟的软件; 16.选择可靠性、服务性高的硬件; 17.复制成功的配置,容易支持测试; 18.参考外界资源; 19.一个问题,一个解决方案; 20.KISS (KeepItSimpleasStupid,越简单越好)。 灾难管理的5条阻碍因素 1.这不是我的工作 2.价格太昂贵 3.这里绝不会发生 4.NIH病症 5.未能将问题搬上台面讨论