AWS灾难恢复的重要参考指标
目录
1. RTO恢复时间目标
2. RPO恢复点目标
3. RTO和RPO的权衡
1. RTO恢复时间目标
当业务发生中断后,从业务发生中断时开始,到将业务恢复到正常所需要的时间,此两点之间的时间段称为RTO。
如我们的业务在下午14点的时候发生故障,如果定义的RTO是2小时,灾难恢复的进程要在下午16点前将业务恢复到可接受的服务级别。
RTO是反映业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的恢复能力越强。可以部署多站点容灾方案等等来获取最小的RTO。但约小的RTO可能意味着容灾方案需要投入更多的资金。
2. RPO恢复点目标
指可接受的数据丢失的最大数据量,也就是容忍丢失的最大数据量。RPO表示为从丢失事件到最近一次备份的时间度量。
如每天20点备份数据,在第二天20点前发现数据异常且无法修复,只能恢复前一天20点的备份数据,RPO就是24小时。
如果定义了RPO为5小时,我们就要做到每5小时要进行一次数据备份。
所以为了减少RPO,一味的增加备份的频率是不现实的,需要根据组织实际的情况,结合相应的同步/异步/备份等技术,制定适合组织的方案。
3. RTO和RPO的权衡
RTO和RPO指标并不是孤立的,而是从不同角度来反映的容灾能力。
RPO指标来自于故障发生前,而RTO指标来自故障发生后,两者的数值越小,就能有效缩短业务正常到业务过渡期的时间间隔,单一地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间,具体从哪个指标上来改善,就要结合实际情况分析,提升那个指标代价最小,效果更明显。
所以需要根据RTO、RPO的要求设计灾难恢复方案,在规划同时考虑方案的实现成本。可用性越高,RTO、RPO的值越低,可能实现成本就越高,应在可用性和实现成本之间找到平衡点。