业务持续运转的免疫四步法 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
http://www.sina.com.cn 2006年03月20日 15:47 中国计算机报 | ||||||||||
李琨 汪蔚 郝峥嵘 郭莹 心、脑、肝、肺,人的生命正是依靠这些器官的持续“运转”而维持,而它们如何抗击病毒侵袭,保证健康稳定?靠的就是身体的免疫力。 一个企业有生产、销售、办公自动化,这么多业务怎么才能24小时不间断运行?在
在资源有限的情况下,“势利眼”的IT部门当然要先判断业务的重要性,然后设立相应的应对方案。这就是用IT构建业务持续的免疫系统。 第一步:分清敌友 我们每天要遭遇多少细菌?空气中的,水里的,桌子上的,食物中的,可以说,人类被各种细菌包围着。 一听到细菌,大家的第一反应是,问题。其实,细菌的种类有很多,细菌背后也不是疾病,我们的生活其实因为各种细菌的存在才能继续下去。比如唾液中的酶,让人们有了消化分解美食的基础。 对于人体的免疫系统来说,当遭受细菌攻击的时候,第一个动作是判断。判断这细菌是良性的还是恶性的,是从外部来的还是内部来的,它是攻击人的血液,还是攻击人的大脑。对细菌做一个最基本的判断,有利于免疫系统迅速启动并将危害减低到最小。 在用户的业务连续性管理(BCM)过程中,第一步就是要对业务流程进行分类。毕竟,企业资源是有限的,如果保证所有的业务都享有最高的服务级别那是不可能的,所以,应该把有限的资源放在最需要紧急响应,一刻都不能停的地方。换句话说,业务中哪些是最重要的,必须一有问题马上响应?哪些又是不用24小时不间断运行的,这种分类,是进行BCM的基础。 很容易想到,事关用户主营业务的流程自然是第一位需要保护的。比如,24小时的生产流水线,24小时的客户服务电话及客户服务网站,而一些非主营业务则可以在服务级别和服务响应时间上有一定的冗余,比如办公自动化,一些非业务部门的内部业务,也完全可以不要那么高的响应级别和那么高业务连续性要求。 但是,分出级别和实际上设计他们需要的服务是两回事,因为这牵扯到业务连续性的投资问题。对于有的用户来说,最高级别的服务也未必是24小时不间断,一些有明确营业时间的用户,比如超市等,在非营业时间发生的问题,完全可以控制在上班前解决,这样的设置就可以在不影响主营业务,获得同样收益的前提下大大节约IT成本,节约响应成本,提升IT部门的效益。因此,对于用户来说,将自己的业务进行分类后,判断出业务需要的响应级别必不可少。 还需要指出的是,分类并不是简单的归类,而是有相对明确的分工和要求,最好有一张详细的说明表。比如说,将服务级别分为五类,每类里明确具体的业务是什么,有什么连续性要求,甚至具体到为什么这样分类,如何保障业务需求等。有了这一张大表,以后当有新业务发生时,也可以“按图索骥”,找到新业务应该处于的分类。另外,这种分类也不是一成不变的。在企业发展的不同时期,或者是不同特殊阶段,分类的规则和某些具体业务有可能会发生调整,相应的服务级别会有调高或调低。而这种调整,都依赖于该业务的重要性,以及每个分类的具体细则。 第二步:评估风险 新加坡业务持续计划协会亚太区主席余绍强认为,BCM就像保险一样,也是随需订制,量身定做的。在进行业务风险分析后,企业可以根据自身的情况来选择适合自己的BCM,选择哪些业务、采取哪种方式都由企业自己决定。 那么怎么随需订制,量身定做呢?需要对企业进行事前评估。事前评估涉及风险评估、投资评估以及业务影响分析等等。项目启动后,只有通过评估,才能确定一个企业究竟需要怎样的业务连续性战略与计划。 如果把企业比作人体,那么BCM不啻于是保护肌体的免疫系统。我们可以拿人体免疫系统来对比一下。 有一种特异性免疫能力是这样工作的:当“敌人”进入人体后,与作为“士兵”的免疫活性细胞相接触。这些分工精确的“士兵”有的吞噬“敌人”,有的把“敌人”的特性暴露出来,这是识别“敌人”的阶段。之后,免疫活性细胞才能被“激活”,去“杀灭”“敌人”。这一过程叫作“反应阶段”,也即准备“武器”阶段。 我们发现,BCM的事前评估和免疫系统工作过程类似。事前评估,首选是风险评估和预防。其目标是评估潜在的业务风险,然后评估如何才能在风险发生前预测到风险并将其减到最小。其次是业务影响评估和漏洞分析。通过与业务流程部门的负责人进行沟通,确定哪些流程是最关键的,然后确定灾难可能发生时带来的潜在影响。同时对已有BCM产品和服务进行评估也是非常重要的,这样可以确定还需要哪些投资、制度或服务来填补漏洞。这一过程类似于免疫系统的识别阶段。之后,才能根据以上分析,制定业务连续性策略。这就类似于免疫系统的反应阶段。 以建设呼叫中心为例,大部分企业将精力放在了设备和软件上,对风险防范和容灾恢复缺乏足够的重视,结果令危险越积越大,最后导致一发不可收拾。呼叫中心每天需要处理庞大的话务,保存了大量的重要数据,一但出现诸如“断电瘫机、服务器崩溃”等事故,将给企业造成难以估计的损失。 对呼叫中心来说,实现BCM的事前评估主要指预计可能存在的风险及分析对业务的影响,另外还包括对周边环境的评估。 要想合理制定评估体系,首先要进行风险评估。按照国际通行的风险公式,RISK(风险)=发生风险所带来的损失×风险发生的概率。用户需要列出影响呼叫中心的每一种风险,并统计出它出现的概率及带来的损失,然后才可以分析出它对业务的影响。 接下来还要进行环境评估。对呼叫中心而言,地理位置十分讲究。一般来说,最好可以自成园区,保安、物业、供电、供水必须由自己控制;选择有双路市政供电加发电机的写字楼。且周边不能有重大工程、军事目标等的存在。选址离市区光纤距离50公里左右、交通方便、距机场30~60分钟车程的位置最为合适。这样既能有效地防范大面积停水、停电等灾难的波及,又能方便外地专家和技术人员在灾难发生后迅速赶到现场。 第三步:消除感染 免疫系统对外部攻击进行分类和评估之后,就该制定相应的策略和计划,把攻击消灭在萌芽状态。在携带传染病的细胞侵入时,免疫系统会启动防御功能,抵抗病原体感染。在一些极端危险的情况下,免疫系统甚至可以做出“丢车保帅”的决定。科学家就发现,某些蛋白可通过诱导被攻击地点的细胞发生细胞程序性死亡,以局部献身换取整体生存。 企业的BCM行动和人体免疫系统的行动原理一样,要根据前面的分类和评估,制定相应的行动策略和计划。不同的业务,相同中断时间造成的损失不同;相同的业务,恢复时间越短所需要的投资成本就越大。为了实现最大化的业务恢复价值,而又能节省投资,企业决策层会对业务规定相应的恢复级别。 在衡量业务恢复方面,有两个量化的指标——恢复时间目标(RTO)和恢复点目标(RPO)。前者指的是使系统恢复所需要的时间,即在某个事件发生后,系统的信息系统、服务和流程迅速恢复运行所需的时间,其中包括应用和数据的恢复以及接入这些应用的最终用户的恢复。后者是可接受的数据损失程度,RPO标志着在哪个时间点以内,企业还可以利用备份、日志或交易记录来恢复数据。它定义了可以接受的数据丢失程度。许多企业认为,如果发生灾难,它们将利用最后的备份进行恢复,但这可能耗时很长。 例如,对于通信运营商来说,营业系统直接面向最终用户,是业务受理和用户感受通信服务的直接窗口,其重要性不言而喻。所以,最先考虑的应是营业系统的连续性,保证在遭受灾难之后,营业活动能在最短时间内恢复。计费系统涉及到用户的实际费用的收取,是用户账单产生的主要来源之一,尤其是现在很多移动运营商基于计费系统开展了很多省内预付费业务,如果计费系统处理不及时,将会造成大量话费损失,因此计费系统的业务连续也很重要。再者,联机指令直接关系到用户业务受理的最终实现,也必须考虑纳入业务连续性的建设范围。而统计查询等非关键业务则可根据各自的情况来具体考虑。 第四步:形成抗体 德国汉堡大学医学部科研人员曾经做过一项调查,他们发现农村里经常在外玩得一身泥巴回来的孩子,很少发生食物过敏症,而生活在城里的孩子时常会对某些食物产生过敏症状。研究表明,农村的孩子由于经常在野外玩耍,他们感染寄生虫的比例比城市的孩子高出许多,血液中的抗体值也较高,从而形成一种免疫机制,因此抑制了过敏症状的发生。 人体免疫机制的建立能够在大多情况下,抵制病毒、细菌的侵害,保障身体健康。与此相似,其实业务连续性管理也同样需要合理的“免疫”机制,来抵御日常工作中“病毒”、“细菌”的入侵,防止可能发生的业务“过敏”症乃至“病死”症。 南方一家企业曾早在上个世纪90年代末,就引入BCM理念。当时,企业专门就其业务中存在的潜在威胁进行了分析归类,并实施了评估、制定了相应的策略。在完成这些工作之后,刚开始,企业还能根据制定的策略常抓不懈,但是当业务顺畅运转几年未发生差错时,企业认为有了现有的应对策略就已经足够,开始放松了对业务连续性管理的更新工作。 但是,企业外部各种可能对企业业务构成威胁的潜在因素,却如同生活中不断出现的新病菌那样层出不穷。放松连续性管理的这家企业,不久竟然在一次大面积的互联网病毒攻势中“中招”,许多财务数据毁于一旦。 直到此时,企业管理人员才明白,企业BCM的实现,需要企业不断实施威胁分类、评估威胁、制定策略这样的循环往复过程,才能真正增强企业的“免疫”能力。正如人需要不断地锻炼,不断地适应不同的环境,才能获得免疫功能一样。 应当说,BCM是一个系统化工程,它不只涵盖到企业的风险管理、应急管理、IT灾难管理、供应链管理等多个方面,还必须不断在这些方面实施有针对性的免疫锻炼。如果一个企业在一次性实施完BCM项目建设之后,就认为可以万事大吉的话,那么这个错误认识将让企业走入误区,缺乏锻炼的BCM甚至会给企业带来比没有实施BCM建设的企业更严重业务损害。 事实上,目前国内引入BCM概念的企业还相对很少,即使部署了BCM,也往往建设规模不大,很大程度上并不能真正让企业实现业务连续性管理。而在许多传统行业里,用户刚刚迈进从单项应用到整合应用的过渡期,业务对IT的依赖性刚刚显现,因此对BCM的需求并不迫切。更多的企业则对BCM的理解仍停留在灾备等技术层面,尚未上升到管理和业务层面。 同时,市场上也缺乏BCM的系统性研究和规范性指南。这些都给进行BCM建设的企业造成了许多困惑与误导,往往认识不到BCM自身需要良好的历练机制。 但是,正如在经历“9.11”、“非典”、地震海啸等重大灾难事件后,世界各国政府开始加紧行动来建立和改善国家的灾难应对应急机制一样,企业也需要建立业务受灾的应对策略,企业不应该直到其业务蒙受损害时,才考虑为自己定制“防护服”。应当及早实施BCM,并不断地实施良好的锻炼机制,最终让企业拥有一个“健康的体魄”去面对市场竞争浪潮。 记者手记 小心狗熊掰棒子 “我知道保证业务连续性很重要,但是老板有一大堆的任务给我让我帮助新业务创新,我顾不上做BCM,起码现在系统挺安全,等新业务弄完了我再回头折腾旧系统。”这是很多企业IT部门最常有的抱怨。 中国工商银行信息科技部副总经理苏文力面对这样的话,一针见血地指出,“领导让你创新没错,但是他默认的前提是安全生产和安全运行。一旦主营业务出了问题,所有的创新都是零。” 确实是,IT部门辛辛苦苦做了一整套支撑系统帮助企业业务运转,所有人皆大欢喜,IT部门也开始转战新业务时,这支撑系统突然出了问题,整个业务陷入瘫痪,甚至还不如以前手工时代,带来的损失当然无可估量。 BCM的概念仍然处于导入期,这并不是技术问题,而是观念问题。直到今天,很多用户合同签了,系统上线了,奖状领了,就开始转战到下一个系统中,而再也不考虑旧系统的持续运行问题,顶多用存储和备份保证一下旧系统。要是万一旧系统出了问题,只能放下手里的所有东西奔去救火,甚至火救不急,损失不可估量。 支撑系统的运行后,用合理的BCM机制保证业务持续稳定运转更重要。莫作狗熊掰棒子,只顾上新系统的研发,而忘记了旧系统的维护。 |