孙凝晖:中国高性能计算机的好日子到了吗? | ||||
---|---|---|---|---|
http://www.sina.com.cn 2003年07月22日 23:41 孙凝晖/文 | ||||
作者:中科院计算所 孙凝晖 近来,中国有关高性能计算机的好消息很多,如机群(Cluster)系统风起云涌,曙光、联想等中国服务器主流企业在高性能计算机市场收获多多,金怡廉院士作为中国高性能计算机的杰出代表获得2002年国家科学技术最高奖500万大奖。这里谈谈高性能计算机的体系结构的发展,这里试图回答三个问题,体系结构的发展规律是什么?中国高性能计算机产业的 高性能计算机体系结构的发展 这里抛开学术上对体系结构的划分,试图从应用的角度看看高性能计算机的发展规律。前美国总统信息技术顾问委员会两主席之一,IBM网格计划领导人Wladawsky-Berger在2002年Global Grid Forum (GGF)会议上的主题报告“Beyond Technology:On-Demand Computing”中谈到,按照对国民经济和社会发展的影响程度,科学技术的发展可分为专家使用期,早期流行期,公众认识期,广泛使用期四个阶段。 让我们看看高性能计算机的情况。在专家使用期,是“大型机—终端”时代,只有少数专家能够,并且“会”用大型机(mainframe),从事科学研究中的计算问题,IBM 360系统和CRAY-1、计算所的“757机”、“KJ系统”、国防科大的“银河-1”都是典型系统。 在早期流行期,是“PC—局域网—服务器”时代,专业人士开始广泛使用计算机,高性能计算机除进行科学计算外,还能做工程计算,如飞机设计,数值天气预报;做事务处理,如银行交易,企业管理信息系统。高性能计算机呈现出百花齐放的局面,一个本质改变是微处理器(micro-processor)取代了组合处理部件,使高性能计算机的成本大大降低。从体系结构上看,以数据为计算原料的事务处理一直稳定在SMP(对称式共享存储多处理机)上,如SUN的UNIX系统;在以计算(computation)为目的高性能计算领域,则精彩纷呈。为了在一个时钟周期(clock)内作更多计算,人们将许多计算部件放在一个CPU内,成为向量机(vector),又以此为基础发展了共享存储的向量机,能共享远地存储的分布式存储向量机,如NEC SX-5系统。为了让一个应用能使用很大的内存,人们将分布在不同CPU周围的内存合并成一个逻辑的大内存,成为分布共享系统(NUMA),又以此为基础发展了COMA,NCC-NUMA,CC-NUMA系统等,如SGI的Origin系统。为了让应用能并行地使用尽可能多的CPU解决一个大问题,人们将大量小的处理单元用互连网络连接起来,成为大规模并行处理系统(MPP),又在此基础上发展了可物理地共享存储的MPP系统,和可逻辑地由虚存来共享存储的系统,如CRAY T3E,计算所的曙光1000,和金怡廉院士设计的“神威机”。这个时代,用户多在自己的PC上通过网络使用称为“巨型机”和“超级计算机”(supercomputer)的这些高性能计算机。 在公众认识期,我们现在处于的时期,是“Internet”时代,广泛的机构、企业和民众开始大量使用信息技术,与高性能计算机打交道,带来这一改变的当然是互联网(Internet)和万维网(Web)了。对高性能计算机来说,有两个变化改变着游戏规则,一个是以Intel CPU为代表的微处理器,正在飞快地缩小桌面系统(desktop)与后台系统(server)的处理单元在计算能力上的差距,这是“摩尔定律”在向人们显示它的威力;另一个是商品化和标准化在起作用,由此导致了信息产品的“量产”(volume),大量用户能够使用高端技术,系统的性能价格比迅速提高,由此形成正反馈。以IBM为例,可以看到它的eSserver的四个系列在CPU、高性能部件、操作系统、数据库等上越来越走向统一。这个时代在高性能计算机上的伟大贡献显然是机群(Cluster)体系结构了。Cluster就是用标准化的互连网络(定制或商品化)将量产的高性能部件连接起来,用软件提供单一系统映像,在Cluster平台上,科学计算、事务处理和“Internet”时代特有的信息服务应用都能运行自如。典型的系统有IBM SP,Compaq AlphaServer SC,计算所的“曙光2000”、“曙光3000”。 在广泛使用期,人们将看不到计算机系统,看到的是各种各样的服务,这就是IBM的“按需计算”(On-Demand Computing),我们提倡的“网格计算”所描叙的美妙未来。这个时代的本质变化是高生产率服务(High Productivity Service),HPC变成HPS,这时的高性能计算机体系结构是什么,人们尚不知晓,但我们可以预测一下现有的体系结构的走向。在商业计算领域(commercial computing),IBM的大型主机会维持它在银行交易结算为代表的特定领域的市场,但不会有发展了;SMP系统是主流,以大节点SMP系统构成的机群系统将不断进入企业,甚至是银行、证券这些最保守的领域。在技术计算领域(technique computing),MPP、CC-NUMA、VPP系统在最追求性能的应用领域会有一席之地,其中MPP/VPP在构造最大系统(如美国ASCI系统),最追求应用饱和性能的用户,资金充足的政府机构那里依然受到追捧;大型的CC-NUMA系统将逐渐走向衰落,理由有二,一是它的唯一优势是大物理内存,大量CPU共享内存的高效编程对用户是件困难的事;二是用算法和软件的方式使用大内存,要有效和经济得多。但NUMA技术不会衰落,在IBM P690的板与板的互连中,AMP Opteron的CPU之间的互连中,都采用NUMA方式,只是规模小而已。SMP系统由于应用的继继承性,机群系统由于无可比拟的性能价格比将占据主流位置。 中国高性能计算机产业的好日子到了? 第一个答案是“YES”。理由有四点,分别从市场,技术,用户,企业上体现。第一,市场红红火火。曙光公司经过长达8年的发展,在高性能计算机市场呈爆炸式发展势头,在教育、石油、政府等领域能成百台量级地批量销售,甚至进入银行;联想公司以“万亿次机”为实破口,在中科院计算数学所、大气所、大庆石油勘探院等也有不少销售。在市场竞标中,很多时候形成以IBM、SUN、HP、SGI为代表的国际品牌,以曙光、联想为代表的国内品牌两军对垒的局面。 第二,技术、产品能够与国际品牌匹敌。总结计算所国家智能计算机研究开发中心12年发展高性能计算机的历史,我们以两点为骄傲。一是探索了高性能计算机的技术发展道路,从KJ向量机到以微处理器为特色的“曙光一号”SMP系统,从“曙光1000”MPP系统到以商品化系统为特色的“曙光2000”、“曙光3000”机群系统;二是在机群系统上,提供了相对完整、有竞争力、有说服力的技术、产品和应用实例,催生了中国高性能计算机产业。曙光高性能计算机是国家863成果的直接转移;联想“万亿次机”及机群产品是联想公司在新形势下英明决策、果敢行为和努力,与国家863成果技术辐射相结合的产物,是中国高性能计算机产业的影响深远的重要事件。 第三,用户广泛接受了国产高性能计算机。甚至在3年前,国产品牌让用户接受还是很难的,许多销售行为带有明显的政府导向。这三年大大改变了,包括政府、教育、石油、税务等行业在内的用户接受了国产品牌和机群系统;另一方面,在市场经济进一步发展的影响下,用户也更多地考虑性能价格比,不一味地依赖国际品牌,国产高性能计算机的产业空间打开了,其中机群系统是“敲门砖”。 第四,中国企业在成熟。曙光公司从一个“纯”技术型企业,发展成为一个“真正”的企业,在企业管理、市场能力、品牌推广、产品设计上日趋成熟。联想公司作为中国IT龙头企业,在观望数年后,进入高性能计算机产业,迅速建立了技术、产品、市场队伍,杨元庆的讲话“可以怀疑联想的技术,不能怀疑联想追求技术的决心”表明中国IT企业的巨大变化和美好未来。浪潮公司一如既往地重视技术创新,和产品开发,积极参与国家高科技计划,将高性能计算机定位于商业计算和存储系统,有很大的发展空间。 我们的第二个答案是“NO”。中国高性能计算机产业的真正好日子还远未到来。理由同样有四点。第一,国产品牌市场份额依然很小。以CCID在2003年2月发表的2002年中国高性能计算机市场分析为例,前四位IBM、HP、SUN、SGI占据96%的市场,在销售量上,SUN以7978套,37.8%的市场份额排名第一,曙光公司以380套,1.8%的市场份额排名第五,但两者有20倍的差距;在销售额上,排名第一的IBM是26.91亿元,33.1%份额,同样排名第五的曙光是1.38亿元,1.7%的份额,两者相差20倍。这与PC市场,甚至PC服务器市场的国产品牌的情况不可同日而语。需要说明的是,在其中的机群系统这一项,国产品牌与国际品牌接近旗鼓相当。 第二,技术格局并没有改变。与国际品牌相比,国产系统在产品的工程技术上,贴近用户部分的系统软件上,细分的应用解决方案上有一些增值或独到之处,技术整体上处于接近国际品牌的地位。曙光公司的“曙光3000”,“曙光1700”也好,联想公司的“深腾1800”也好,在与IBM,甚至Dell竞争时,唯一的重型武器还是低价。当IBM、HP、Dell这些厂商采取本地化战略后,国产品牌将面临巨大挑战,像Intel在PC服务器上用宝德公司来制约浪潮、联想公司这些国内巨头的故事难免发生。我们应从电视机产业的发展历程中吸取教训,国产电视是曾经何等辉煌,当国际巨头以更加先进的技术和本土生产卷土重来时,长虹、TCL的应对之道值得我们学习。 第三,用户和第三方软件厂商还没有成长起来。以欧洲为例,它们的系统厂商的整体实力还不如中国,整个欧洲,法国Bull公司是硕果仅存的系统厂商。但欧洲的第三方应用软件厂商,部件(硬件或系统软件)厂商的力量要远远强于我们,用户应用高性能计算机的水平,包括管理、使用、算法设计、应用软件开发与优化,都强于中国用户。所以,中国高性能计算机产业不只是系统领域的事,还应包括算法、软件、应用和用户。 第四,中国的企业还处于起步期,刚刚入门。国内企业在产品设计上的进步是明显的,在美观、易用上甚至比IBM还好;但在总体设计,部件设计,根据不同行业需求的方案设计上还有较大距离,尚未有成熟的方案占据若干行业。 我们面临的巨大挑战 对高性能计算机的学术界和产业界而说,骄傲与危机并存,希望与挑战同在。重要的是看清它们,选择正确的应对之道。我们就如何应对市场、发展道路、体系结构创新、网格、突破性创新的挑战,谈几点计算所的看法。 如何应对市场的挑战?中国企业的市场机会是很多的,价格战是必要的,但有三件事是迫切的。一是专业细分,即贴近行业用户,将系统和方案进行专业化(specialization)设计,在与用户相关的细分技术上下功夫;二是在产品设计上寻求突破,即技术集成,产品定型能力;三是工程部件,即开发一些工程类软硬部件,提高增值能力。 中国发展高性能计算机的道路的挑战是什么?可能是中国人的思维定式,比较喜欢以一盖全,走极端。一种观点认为,中国就应该发展满足国家战略需要的,以追求性能为目标的,象日本NEC的地球模拟器(40万亿次)那样的超级计算机,集中力量办大事,这种道路我们称之为“核武器”道路。核武器对中国,尤其在国家安全上,是必要的,但对国民经济和社会发展的作用是不明显的,这种昂贵的技术路线不应该是当前中国的唯一选择。另一种观点认为,企业已经很厉害了,联想在短短四个月就造出了“万亿次”机,Linpack性能进入TOP500前列了,一举取代了863十年发展的结果,高性能计算机创新的主体应转到企业了。我们应看到凡是企业就有很大的功利性,为了品牌、股市、企业形象等,有他们功利的选择;由于机群技术本身的商品化和标准化特性,使高性能计算机产业得以发展,但若不能清醒地认识企业的现状、事件的本质、和未来的作用,就会将对产业界十分有益、有利的事情,转化成对整个领域的伤害,这种道路我们称之为“常规武器”道路。我们的观点是,术业有专攻,中国在发展高性能计算机的道路上应该分工合作,“核武器”需要,企业发展“常规武器”应予引导和帮助,学术界应进行创新和关键技术研究,我们称之为“高科技武器”道路。希望造出象美国军队在阿富汗战争中使用的那些智能炸弹那样,武装我们的企业,对国民经济的发展作出贡献。 高性能计算机的体系结构创新的挑战在哪里?我们认为在两个方面,一是满足新需求的技术创新,如电子商务、生物信息、信息安全、网格计算都提出了新的需求;二是解决存在问题,机群技术无疑是我们应坚持的技术路线,但这一体系结构存在着很多问题,如系统中有许多操作系统映像,天生单一系统映像差;当系统较大时,可扩展性和可靠性较差。计算所智能中心将重点放在四项技术上进行创新,分别是大规模机群计算、网格零件、数据密集技术、全频谱服务。近期推出的“曙光4000-L”超级服务器有所体现。 网格对高性能计算机带来的挑战是什么?网格是信息技术的未来,网格将改变高性能计算机的体系结构、应用开发方式、系统使用方式,甚至管理方式,网格对高性能计算机提出新的要求。但是,困扰我们的一个问题是,什么是面向网格的高性能计算机?它与传统的系统的区别在哪里?我们认为,与当年的数据处理、信息服务一样,网格是新的需求,高性能计算机要适应这些新的需求,但网格不是高性能计算机的全部,就象以前的网络计算机一样,面向网格就是让高性能计算机能更好地支持网格化的应用(高生产率服务)。所以,高性能计算机80%的工作还是解决自身的不足,10%是满足新的应用需求,10%是满足网格提出的需求。我们将“面向网格”定义成开发网格零件,高性能计算机具有这些网格零件将更好地服务于用网格思想开发的应用、方案和使用方式。网格计算不等于高性能计算机自身的创新。 最后,高性能计算机能进行突破性创新(disruptive innovation)吗?这一挑战是对学术界最大的挑战。二十世纪80年代,是高性能计算机体系结构创新不断的年代,现在高性能计算机技术似乎稳定下来,就剩下开发和工程问题了。美国IT战略科学家Dan Reed最近撰文指出,“美国最近在高性能计算机体系结构上的创新步伐大大减缓了,IBM、HP这些企业面临市场,尤其是IT严冬的挑战与压力,在研究开发上的投入下降,在承担ASCI系统(核爆模拟)这样的大项目时,也只是用他们在市场上销售的产品和技术集成而已,美国发生哥伦比亚号航天飞机失事不是偶然的。”美国政府正欲加大创新支持力度,支持学术界和CRAY这样的技术驱动的公司。 计算所目前在高性能计算机领域可能的“突破性创新”有以下几个方面。一是解决功耗问题。以美国Los Atmos Lab(从事核武器研究)的Terascale Simulation Facility(TSF)基础建设项目为例,它将建设18兆瓦的供电能力,用于支撑高性能计算环境,其中用于冷却的部分耗电6兆瓦。这是摩尔定律带来的副作用之一。 二是可重构计算(Re-configurable Computing)。现在的CPU体系结构已经几十年如一日了,所有人都上了Intel疯狂提高主频的战车,无处可逃。美国曾有一位教授用FPGA设计了一个实现Linpack的计算逻辑,比通用方法提高性能两个数量级,如何根据应用特性重构计算逻辑是值得研究的问题。 三是光互连高性能计算机。光的发展十分迅猛,人们已经在系统与系统之间用光纤互连,未来在板与板之间,芯片与芯片之间,甚至芯片内部都可能以光互连,以取代电路连接。一个最新进展是光器件、光电变换器件、带光窗口的芯片都已出现,并且价格低廉。我们可以设想光纤连接的高性能计算机的诸多好处。 四是高生产率服务(High Productivity Service)。高性能计算机(HPC)可能会部分地被高生产率服务系统(HPS)所取代,在Internet时代,许多应用已经以服务的形式提供;在网格时代,在网络上传输的将不再是FTP、HTTP、POP3为代表的数据,而是UDDI、SOAP、GSML为代表的服务;当前的系统,无论是路由器、网卡、还是操作系统的进程、线程和调度,都是以任务和数据为对象,不能适应海量服务的处理要求。Linpack必将被一种新的Benchmark所取代。 五是自治分布系统(Autonomous Distributed System系统)。我们认为高性能计算机的组成部分不应以节点、网络、机群操作系统、管理软件来定义,而应该以功能和资源服务的角度定义,即功能分布,资源自治,就象计算所正在研制的“蓝鲸”网络存储系统那样。这样体系结构的高性能计算机也许才能称为网格计算机(Grid Computer)。 我们正在努力,我们满怀梦想,我们期待着政府,学术界,企业,用户的共同努力,创造中国高性能计算机的好日子。
订阅新浪体育新闻,送你皇马球票让你亲历五大球星风采 |