灾难事件一般包括:自然灾难(如风、火、水、雷电和地震等)、人为灾难(如人为失误、非授权操作等偶然故障,病毒入侵、骇客及人为破坏等 Byzantine故障、恐怖袭击和战争等)和技术灾难(设备故障、软件错误、电信网络中断和电力故障等)。统计资料表明自然灾难(包括人为的战争和恐怖袭击等)仅占灾难的3%,人为灾难占灾难的39%(其中。偶然故障和Byzantine故障分别占32%和7%),而技术灾难占到灾难总数的58%.
根据《信息系统灾难恢复规范》,灾难被定义为。由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。通常导致信息系统需要切换到灾备中心运行。灾难恢复指的是,为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾难备份指的是,为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程。
广义地理解,灾难备份(简称灾备)是指利用技术、管理手段以及相关资源确保关键数据、关键数据处理系统和关键业务在灾难发生后可以尽可能多且快地恢复的过程,包括灾难备份和灾难恢复两层含义。不仅包括灾难发生前对数据的备份和日志,信息系统构建过程中容灾体系结构的设计、提前制定的灾难应急预案与恢复计划等,而且涵盖了灾难发生后灾备中心或者备份系统的业务接管,数据、系统、服务迁移过程中的安全管理、系统灾难损失评估等内容。灾备的目的就是确保关键业务持续运行以及减少非计划宕机时间。
衡量灾备系统的两个重要指标是:恢复时间目标(RTO,recovery time object)和恢复点目标(RPO,recovery point object)。
RTO:恢复时间目标,以时间为单位。即在灾难发生后。信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小,灾备能力就越高。
RPO:恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。若RPO等于0,相当于没有任何数据丢失。否则,就需要进行业务回复处理,对丢失数据进行修复。
RPO针对的是数据丢失。RTO针对的是服务丢失,两者必须在进行风险分析和业务影响分析之后根据业务的需求来确定。
一般而言,灾备分为三个级别:数据级、应用级和业务级。其中数据级、应用级都属于IT系统范畴之内,而业务级则考虑到IT系统之外的业务因素,包括备用办公场所、办公人员等。
数据级灾备的关注点在于数据,即灾难发生后可以确保用户原有的数据不会丢失或者遭到破坏。较低等级的数据级灾备可将备份的数据通过人工方式保存到异地实现,如将备份的磁带(盘或光盘)定时运送到异地保存就是方法之一。而较高级的数据灾备方案则依靠基于网络的数据复制工具,实现生产中心不同备份设备之间或是生产中心与灾备中心之间的异步/同步的数据传输,如采用基于磁盘阵列的数据复制功能。
应用级灾备是在数据级灾备的基础上,对应用系统进行复制,也就是在异地灾备中心再构建一套应用支撑系统。支撑系统包括数据备份系统、备用数据处理系统、备用网络系统等部分。应用级灾备能提供应用系统接管能力,即在生产中心发生故障的情况下,灾备中心便能够接管应用,从而尽量减少系统停机时间,提高业务连续性。
业务级是最高级别的灾备系统。它包括很多非IT系统,如办公地点等。当大的灾难发生时。用户原有的办公场所都会受到破坏。用户除了需要原有的数据、原有的应用系统外,更需要工作人员在一个备份的工作场所能够正常地开展业务。实际上,业务级容灾还关注业务接入网络的备份,不仅考虑支撑系统的服务提供能力,还考虑服务使用者的接入能力、甚至备份的工作人员。
在灾备系统建设中,选择不同的类型。应该综合考虑数据与应用系统的重要性、业务关联度、技术成熟度、基础设施条件、成本和管理维护等一系列因素。