科技时代新浪首页 > 科技时代 > 滚动新闻 > 正文

让咱的系统更宽容(1)


http://www.sina.com.cn 2006年10月26日 11:57 赛迪网

  【赛迪网讯】钱经理一直认为自己的系统万无一失。

  设备当然是选择最好的设备了,而且承担整个系统关键任务的服务器又是采用的先前比较火热的“双机热备”模式。运行几年,虽然小问题也有,但是解决起来总还是很顺利的。

  可是,这一次的故障解决起来,钱经理就觉得没有那么顺手了:其中一台服务器上的应用软件出了问题。

  【谈需求】

  单机容错可比拼双机热备

  i博士点评

  容错技术的逐步成熟,使得具备容错功能的服务器具备了更高的可用性和可维护性,而且容错服务器还可以降低用户的总体拥有成本,更多的企业开始把目光从双机热备转向了具有容错技术的服务器平台。

  琢磨了半天,钱经理还是没有想出更好的解决之道来。他决定找他的两个老朋友请教了。这一次他把地点选在了逐鹿茶楼。

  落座后的欧主管和i博士,不约而同地问钱经理道,到底是什么难题,让他这么急地把大家约到了一起。

  钱经理就把自己系统所出现的故障描述了一遍。这一次,欧主管也沉默了。二人又把目光集中在了i博士这边。博士的回答,却让两个人更为失望:“这个恐怕得找业内的专家了,软件故障可不是谁都能轻易处理的。”

  原以为从老朋友这里可以找到解决的方法,没有想到,博士只给了这么一个建议。钱经理倍感失落。

  不过,他还是不甘心地问道:“现在有没有更好的解决策略呢,既可以节约资本,维护起来也不用太多的波折,应用还比较简单。”

  “有,不过现在应用的用户还是比较少,而且大多是高端的、对系统稳定安全要求更为严格的用户,比如金融、医疗等行业。”

  “是什么样的解决方式呢?”钱经理和欧主管同时问道。

  “可选择专业的单机容错服务器。”i博士回答道。

  “你的意思是要我替换现有的服务器吗?”钱经理对于博士的回答有些不解。

  “不是这样的,我只是建议在以后的系统升级中,可以考虑选择具备容错技术的服务器产品,或者是专业的容错服务器。现在,具备容错技术的服务器产品已经有很多企业在生产,而且专业的容错服务器也早已在市场上有售。”

  “什么是具有容错技术的服务器产品,什么又是专业的容错服务器产品,有点像绕口令一样。”钱经理低声地嘀咕道。

  i博士略微笑了笑,继续解释道。

  虽然在一般情况下,信息系统的故障不会给企业运作带来什么影响,但在某些关键时刻,系统的故障就会给企业带来不可挽回的影响和损失,这对

医院、报社、工厂、金融机构等而言,尤其重要。容错技术的产生和应用正是在这种客观需求下应运而生的。

  服务器的容错技术一般是指在系统出现故障时,服务器还具备继续工作的能力。容错系统一般有两种,既有因具备热备份方案而允许出错的系统,也有对出错非常敏感的系统。这里的“出错”既有人为因素,也有非人为原因。

  具备容错技术的服务器是通过对服务器的关键部件采用冗余配置的模式,当出现操作失误或系统故障时,服务器的容错机构可以及时发现、及时补救所出现的系统故障,以保护文件、恢复并保持系统的正常运行。

  而专业的容错服务器则能够自动分离故障模块,在不中断运行的情况下,进行模块调换,对损坏的部件进行维护,并且在一切物理故障消除后,系统会自动恢复同步运行。

  容错服务器在“可靠性、可用性、可管理性、可维护性、可兼容性、可扩展性”等设计方面得到了更好的保障。

  以业内较早推出容错服务器产品的NEC为例,NEC系列产品的实时保护技术来源于STRATUS连续处理技术,包括LOCKSTEP技术,该技术允许使用相同的、冗余的硬件组件在同一时间内处理相同的指令。该技术可以保持多个CPU、内存精确的同步,在正确的相同时钟周期内执行相同的指令,在出现错误时,允许系统在不间断处理和不损失数据的情况下恢复正常运行。

  此外,STRATUS连续处理技术还包括安全故障软件和激活服务。安全故障软件可以防止软件发生错误以及储运损耗,并可允许热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式,增强了系统连续运行的稳定性。激活服务则是通过简易直观的图形界面来管理监测工具,能够对服务器中硬件运行及故障状态进行适时监控。

  “按照这么解释来看,不管是专业的容错服务器还是具备容错技术的服务器,其最基本的工作原理都是采用关键部件冗余配置的模式,和双机热备容错还是有类似的。”听完i博士的解释,欧主管插话道。

  “他们之间有相似点,但是其工作模式和性能方面还是有差异的。我这里给你们做一个详细的分析。”喝了口茶,i博士又继续解释道。

  在容错服务器领域,通常采用以下三种方式保护服务器,一是把两台服务器共享磁盘阵列柜做成集群,二是在两台服务器间安装双机容错软件,三是单机容错。它们各自所对应的容错级别也是从低到高的,也就是说,服务器群集技术容错级别最低,而单机容错技术级别最高。

  双机热备份技术所采用的是两台配置完全一样的服务器系统,操作系统的应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘整理集中管理和备份数据的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,保护了数据的安全性和保密性。

  单机容错服务器则是通过CPU时钟锁频,通过对系统中所有硬件的备份,包括CPU、内存和I/O总线等的冗余备份,通过系统内所有冗余部件的同步运行,实现真正意义上的容错。任何系统部件的故障都不会造成系统停顿和数据丢失。

  此外,双机热备的容错模式和单机容错服务器的定位稍有不同,双机热备一般可以实现99.9%的可用性,单机容错却可以实现99.999%的可用性。这样,双机热备份大多应用在业务连续性不是很严格的行业,比如公安系统或者个别的制造企业,这些行业的应用允许数据有一小段时间的中断。而如电信、金融、

证券和医疗等要求高的行业则是容错服务器的天下。

  另外,双机热备容错方式由于至少需要2台服务器,导致在软件采购(操作软件、中间件、双机备份软件等)、系统维护升级、系统硬件升级都需要比单机容错方式多1倍的额外投入,而且在双机热备份软件出现故障时,其维修的难度较高,会给客户带来较大的困难。因此,虽然单机容错服务器的硬件成本高于双机备份方式的硬件投入,而其总成本却远远低于双机备份方式的成本。

  作者:董丽凤

  但是,就其灵活配置方面,双机热备容错方案则更具优势,许多热备份方案都是由一些系统集成商组合不同厂家服务器进行的,可以满足不同客户的需求。但是,从总体来看,单机容错服务器会是未来的发展趋势。

  【谈市场】

  市场占有量正在逐年递增

  i博士点评

  除了在关键应用领域要首选容错服务器外,如果用户希望自己的服务器易于维护、使用方便、具备高可靠性,而且不希望系统特别复杂,也可以考虑使用容错服务器。

  “就此看来,具备容错功能的服务器,因其独特的优势,在市场上应该有相当大的占有量才对,不过目前的市场,容错服务器的市场占有量好像并不是非常大。”听完i博士的分析,欧主管说出了他的观点,钱经理也给予了赞同。

  “其实目前市场上具备容错技术的服务器并不在少数,只是大家还没有把具备容错技术的服务器直接称为容错服务器。完全意义上的容错服务器其所占的比例是少一些。但是,因为其具备‘5个9’的高可用性,因此,容错服务器在一些关键的应用领域,其所占的比例并不在少。”对此,i博士又给出了详细的解释。

  容错技术的应用已经开始从过去的证券、电信等领域进入基础行业,如制造、能源、物流、交通及有着“7×24”不间断运营需求的中小商业团体和政府。容错的未来将会向更高的可用性、更卓越的可维护性发展。调查显示,越来越多的用户开始注重TCO(总拥有成本)而不是初期购买价格,更多的企业决定逐步放弃采用双机热备的方式来维护复杂的集群服务器,转而将目光瞄向具有容错技术的平台或容错服务器平台。

  “容错服务器相比普通服务器有这么多的优势,那他有没有自身的不足呢?”钱经理问道。

  “与普通服务器相比,容错服务器提高了系统维护效率,降低宕机成本。他的不足之处也正是由于他的优势所带来的,容错服务器在硬件上要比不含容错功能的服务器投入更多,因此,其价格相对较高。”

  “在什么样的情况之下,作为用户可以考虑选择容错服务器呢?”欧主管也插话道。

  “除了在关键应用领域要首选容错服务器外,如果用户希望自己的服务器易于维护、使用方便、具备高可靠性,而且不希望系统特别复杂,也可以考虑使用容错服务器。只是这样,最初成本会稍有增加。”

  “那在选择的时候,我们又该考虑哪些方面的问题呢?”

  “容错服务器不同于普通的服务器,在选择的时候,一定要注意整体解决方案的选择,而不是容错服务器硬件本身,因为硬件的购买是体现不出容错状况的改进的,只有配以合理的方案运作才能改变系统现状,提高系统容错能力。”

  “在应用的过程中,有什么需要特别注意的地方吗?”

  “容错服务器在使用维护上就相当于单台普通服务器,没有什么特别的。只要和普通服务器一样进行管理、维护就可以了。”

  【产品推荐】

  NEC Express5800/320Fa

  NEC Express5800/320Fa系列采用了最新开发的LSI芯片硬件设计,使用对主要部件(包括CPU/I/O模块、硬盘等)双模冗余的模式,更好地满足了用户对于业务不间断运行的需求。

  产品专门设计的芯片组担当两个冗余的CPU/I/O模块之间的桥梁,承担着核心诊错、故障隔离以及同步逻辑的重要任务。这个芯片组采用一条专门的被动式总线来连接冗余的CPU/I/O模块。

  同步技术可以保持多个CPU和内存精确地同步,在正确的相同时钟周期内执行相同的指令,从而保证能够及时发现错误,即使短暂的错误,系统也能够在不间断处理和不损失数据的情况下实现快速的失效切换并恢复正常运行。

  Express5800/320Fa系列服务器最多可配置两颗3.20GHz主频的64位至强处理器,数据带宽达到3.2GBps。由于处理器向64位多内核多线程发展,服务器对内存带宽的需求进一步增加。

  NEC Express5800/320Fa支持容量高达12GB的内存,采用最新的DDR2-400内存技术,与DDR333相比,内存带宽提高20%,而功耗则降低40%。配备的2个64位/100MHz半高PCI-X扩展槽使用独立的PCI-X总线,保障系统拥有出色的I/O性能。

  通过NEC Express5800/320Fa系列的DianaScope技术,网络管理人员可以方便地检测到硬件故障。并且服务器前端一共14个LED状态指示灯会清晰的通知用户各部件的当前状态。容错服务器可选配远程管理卡,通过管理卡可以实现远程控制台对服务器的控制管理。

  

让咱的系统更宽容(1)

  华硕RS162-E4

  基于Intel 5000/5100 XeonTM双核心处理器最新平台的1U服务器产品华硕RS162-E4/RX4,在处理速度、数据保护、存储容量、散热方案、扩展性能方面表现突出。作为一款双路双核服务器,RS162-E4不仅可全面发挥双核处理器性能优势,还拥有海量存储和独特的无线材设计两大亮点。

  RS162-E4包含了12个内存插槽,支持新式的FBD(Fully Buffered DIMM全缓冲式内存)DDR2 533 / 667,最高可达到48GB,消除了系统性能瓶颈。此外,RS162-E4还提供了最新SAS存储技术解决方案,在空间有限的1U 的机箱内4个硬盘槽位可支持SAS或SATAII热插拔硬盘。

  作者:董丽凤

  在容错设计上,RS162-E4不仅内建了LSI 1068 PCI-X SAS控制芯片,可为使用者提供RAID 0、1、0+1和RAID 5(需购ZCR卡)等不同功能。用户还可选购ZCR RAID卡,保护资料的安全。

  此外,RS162-E4内部采用多处冗余设计:两个服务器级别的Intel 82563 PCI-E Gb LAN网络端口可支持负载平衡与失效转移功能,保证网络传输的畅通无阻;700W电源也采用冗余设计,使用者无需担心电源故障导致的系统问题;热抽换风扇也使系统维护更加方便。

  RS162-E4采用专业无线材设计,机箱内部整洁,方便管理人员的诊断、维护;没有排线的阻挡,对机箱内部散热也大有裨益,智能风扇更可大限度地为系统降温,并保障产品运转寿命。RS162-E4提供灵活的扩充选项,全方位内建了多种规格的扩充插槽,包括PCI-E x 8、PCI-X、PCI插槽等,可以更好地满足使用者的不同需求。

  

让咱的系统更宽容(1)

  HP Integrity NonStop

  HP Integrity NonStop配备4MB缓存的2颗Intel安腾2 1.5GHz处理器,每颗处理器具有4到16GB内存,拥有光纤通道磁盘存储库,支持XP SAN磁盘阵列、千兆以太网连接,采用模块化设计,封装在19英寸机柜中,支持连接到原有 S 系列磁盘和 I/O。

  Integrity NonStop具有超强虚拟化能力,能适应数据业务迅速和不可预知的增长,在继续保持原有服务水平和应用连续性的同时降低管理成本。

  作为一个开放的专用平台,Integrity NonStop在开放性、可扩展性、可靠性等方面独树一帜。

  如果服务级别高于一切,Integrity NonStop将是最关键业务应用的理想选择,基于标准的创新架构,以极佳性价比提供业界最高可用性和可扩展性,能为医疗卫生、金融服务、政府、交通、通讯、零售和制造等行业,提供关键业务所需的连续正常运行时间。

  

让咱的系统更宽容(1)

  曙光天演EP850

  曙光天演EP850是曙光专为企业级核心应用、高性能集群系统等高端应用领域精心打造的一款高端服务器,具有高性能、高性价比、全面兼容主流应用等突出特点,可配置8颗AMD Opteron 800系列处理器,并支持双核处理器,内存最高可达128GB。主要适合应用于大型企业、政府、电信、银行等行业的核心业务支撑服务器、数据库服务器以及小型的高性能应用服务器应用。

  天演EP850支持最高达8颗AMD Opteron 800双核处理器,处理器系统采用独有的交叉互连技术,能够提升系统效率。产品采用最高1GHz的HyperTransport直连架构,能够消除系统总线瓶颈问题。最高可支持128GB DDR400/333 ECC Registered内存。

  天演EP850提供高速PCI-E×16和PCI-X 插槽,支持高速扩展设备,具有很好的扩展性。系统支持8块硬盘,最高可以支持8块硬盘,作为存储盘阵使用,充分解决了用户对高存储的需求。

  

让咱的系统更宽容(1)

  宝德PR2750D

  宝德PR2750D双路容错服务器针对企业级和部门级关键应用,在CPU、存储、电源、散热、网络联接等方面都提供容错设计,主要适用于数据库、OA/ERP、财务核心应用、高速缓存、多媒体、代理主机、搜索引擎、VPN、IP语音等业务,为国内用户提供高性能、高可用、高度安全的服务器产品。

  在电源和散热方面,PR2750D可选装700W 单电源或者700W 1+0热插拔冗余电源;采用全新设计的2U服务器CPU散热装置;4个60MM高速散热风扇,冗余设计风扇,可根据机箱温度自动提速;并且风扇模组架,电源模组架,硬盘仓散热的SCSI背板设计,都更加有利于安装和拆卸,有利于服务器的不间断工作。

  在存储和运算方面,PR2750D支持多达6个SAS热插拔硬盘,在通信和扩展方面,PR2750D支持8个DIMM FB服务器内存,最大32GB,支持内存镜像;集成双千兆网卡,提供冗余通讯功能,满足安全应用需要;同时可选配英特尔容错网卡。

  

让咱的系统更宽容(1)

  作者:董丽凤

  【专家观点】

  “5个9”的优势

  容错服务器是专为提高系统安全性设计的,它可以达到99.999%的系统可用性,这一点是普通服务器所不能企及的。

  而根据调查,系统宕机25%左右是由硬件故障引起的,30%左右是由软件故障引起的,20%左右是由人工操作失误引起的,还有网络原因,灾难如火灾、地震等,以及25%其他原因。

  其中,硬件故障,软件故障以及人员操作失误共造成了70%以上的系统宕机。

  容错服务器就是为解决这70%的系统宕机而设计的,容错服务器系统安装简单、维护方便,采用成熟的操作系统软件如Windows和Linux,且无需额外开发工作,在很大程度上避免了硬件故障、软件故障和人工操作失误,提高了可用性。

  

让咱的系统更宽容(1)

  杨志国

  NEC信息系统(中国)

  有限公司产品经理

  需求有增长但还需突破局限

  从客户方面来说,容错服务器应用当前主要集中在金融、大型制造、能源、电信、军队、政府等个别部门,这些对数据安全及服务器不间断、不出错运行有极高要求的行业才会对容错服务器有稳定的需求。虽然目前看来,用户市场具有一定的局限性,但随着全社会经济增长,市场对容错服务器的需求也将随之增长。

  从技术上说,目前容错技术仍比较单一,主要是针对金融,大型制造、能源、电信、军队、政府等高级别容错技术为主,暂时满足不了对容错有一定需求、但又没有严格要求的客户。

  在方案上,正因为技术的单一,造成针对中低端容错需求的客户无法承受高端技术的费用,从而导致客户流失。

  

让咱的系统更宽容(1)

  舒赜

  华硕服务器产品总监

  未来趋势是单机容错

  容错服务器的优势是数据安全,可靠性提高,但不足是管理略显复杂,成本提升。

  如双机容错服务器都需要双机软件,这需要管理员提升相应的知识;双机容错扩展时也有自己的特点;通过双机备份,数据可靠性大大提高,而可用性提升到99.99%。

  容错服务器会向单机容错和机群容错两个方向发展,但目前比较成熟的技术是双机容错。单机容错是服务器技术提升后的必要结果。

  机群容错是将来服务器普遍应用之后,伴随着数据迁移和计算迁移技术而发展起来的,一个服务器出现故障而其他服务器随时进行数据安全、功能替代的补偿技术。

  容错服务器比普通服务器造价要高一些,但是安全性和可靠性则更上一个台阶,可以满足用户关键业务的需求,宝德服务器的85%都引入容错设计。(宝德服务器解决方案部经理 钟加栋)

  仅少了一个“9”

  一般来讲,关键任务系统的可用性要求为99.92%,但是普通PC 服务器的可用性仅能达到95~99%,不能达到这个要求。具备容错技术的服务器则可达到这个要求。

  曙光自己并没有完全意义上的容错服务器,但是曙光的产品很好地应用了容错技术,尤其在自己的高端产品中,很好地融入了容错技术,以及曙光自己研发的具有容错功能的管理软件和应用软件,在产品的配置方面也更多地考虑了具备容错功能和部件的冗余配置。

  相比专门的容错服务器来讲,具备容错技术的服务器产品在价格上更容易被用户接受,而且在性能方面,也基本能够满足用户的需求,曙光具有容错功能的服务器,其可用性能够达到99.99%。

  

让咱的系统更宽容(1)

  沈阳

  曙光服务器产品部产品经理

  【应用案例】

  “容错”保电力时时畅通

  华润常熟电厂是华润电力控股有限公司下属的全资子公司之一。该电厂拥有两台600兆瓦超临界燃煤发电机组和同步安装脱硫设施,是江苏省主要的大型发电企业。

  由于生产实时系统沿用了主流的SIS系统架构,如何实现SIS系统数据的时时备份切换,解决由故障切换导致的当前任务重新开始,正在进行任务进度丢失,由备份系统不统一造成的各系统自行备份,管理繁琐和投入浪费等问题,成为华润常熟电厂应用SIS系统,实现信息化过程中迫在眉睫的问题。

  经过国内外多家著名服务器厂商的争相角逐,NEC Express 580容错服务器最终凭借着独有的单台主机实现了所有部件冗余的特点,针对SIS系统对硬件体系结构要求的数据适时备份切换能力,落户华润常熟电厂。

  通过应用Express 5800容错服务器,华润常熟电厂SIS系统实现了通过单台机器中所有部件的冗余,确保了数据的时时备份;由于不需要用软件来实现数据的备份和与生产实时数据网的连接,也使得电厂SIS系统管理人员在使用上更加简单,减少了故障出现的几率。

  同时,因为Express 5800容错服务器在硬件上实现了部件的全冗余,Cache、内存和硬盘的数据是完全同步的,而且是两套系统同时工作。因此,一旦出现故障,切换只需要把输出从故障部分转移到正常部分即可。当前的任务无需终止,完全无缝的进行切换。而购买单台机器无需另外采购相应软件,也大大降低了投入成本。

  从初期的接触到最终的成功应用,华润常熟电厂的相关负责人认为,借助NEC提供的先进服务器理念和解决方案,电厂生产实时系统实现了全厂过程数据集成、优化生产运营的目的。充分实现了面向生产过程处理全厂实时数据、生产实时数据的存储和备份;对现场即时的工作情况、设备状态、现场参数及工艺过程等重要信息的全程历史存储。同时也降低了投入、故障风险,提高了系统的安全性。

  

让咱的系统更宽容(1)

  应用容错服务器的常熟电厂网络拓扑结构图(n101)

  作者:董丽凤

爱问(iAsk.com)



论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

新浪公司 版权所有