科技时代新浪首页 > 科技时代 > 业界 > 正文

规划数据仓库的困惑


http://www.sina.com.cn 2006年07月05日 14:20 赛迪网--中国计算机用户

  【赛迪网讯】这些天的世界杯无疑是球迷的盛大节日,每当夜晚球赛开始的时候,新城酒吧都是人满为患,大家边喝着啤酒边兴奋地看着球赛。

  在酒吧的一个角落里,身为球迷的王韩却无心看球,在和大学同学李新低声交谈,从王韩谈话时的表情,可以感觉到他似乎正在为某事而发愁。

  企业目前现状

  烟草行业业内人士都比较了解,中国烟草行业信息化水平还处于中等水平。尽管烟草行业内的企业几乎全部实现了信息化管理,并且半数处于“基础网络建设”和“系统建设阶段”,但成熟化的应用还仅仅局限在少数的几家大型烟草企业以及部分省级烟草专卖管理体系。

  王韩所在的企业是中小型企业,身为CIO的他上任三年多,为企业做了不少IT基础设施,但是,因为领导对IT不是很了解,也不愿意多做这种“看不见的投入”。不过因为近几年信息

化工作的推进,还是上了ERP等项目。

  作为CIO,王韩清楚地了解到,企业制度建设相对来说有不完善的地方,有章不循、制度落实不到位的现象时有发生。制度执行当中的监督工作难度大、成本高。企业每年经营信息成千上万条,每天流动资金也不少。

  而在企业数据管理和应用方面,由于企业数据大量积累,存在信息隔离现象,企业已有的ERP系统和其它应用系统大多只能提供相对固定的分析报表,难以满足企业个性化和快速综合经营决策的分析需求。

  王韩的企业目前采用的方式是,采用直线参谋制的监管体系,通过相应的监管部门,应用统计、会计体系对相应的事件进行事后监管,及时处理的时效性差。受人员素质、能力、情感、责任的影响,监管缺少刚性,监管力度大打折扣。

  准备上数据仓库

  前不久,公司老总去外地一个同行企业参观,看到同行企业的信息化建设的步伐大为感慨。回来后主动找到王韩,要求王韩根据企业的情况规划数据仓库项目。并且目的明确地说:“王韩啊,虽然我们是中小企业,但也要把多年积累数据存储、分析,在这个基础上建立高效方便的数据查询,辅助领导的决策,同时也有利于业务部门得到一些业务问题的答案。”

  当了三年的CIO,总是因为缺少信息化的业绩让领导轻视他的存在,现在老板拍板要上数据仓库项目。王韩心情自然十分愉快,听到这里,王韩心里不由地暗暗欣喜。

  “还有,咱们可是小企业,虽然上这个项目,但是还要考虑咱们的资金和以后的发展。你要多考虑咱们的项目该怎么做才符合企业的需求。” 老总走的时候再三叮嘱。

  回到家里,仔细想想老总说的那几句话,不由得让王韩陷入了困扰之中。

  CIO的困扰

  很多企业在实施数据仓库项目时,都有选择企业级数据仓库还是部门级数据仓库(数据集市)的困扰,这一定程度上决定了企业未来数据仓库的应用关键。而目前,这个问题也同样困扰着王韩。

  如果企业先分部门上数据集市项目,以后企业发展到需要整合成数据仓库的时候,因为之前没有统一的数据仓库协调,不同部门之间的数据集市在整合之中是否会因设计的不同,产生不必要的麻烦?

  而如果直接启动数据仓库,问题也不少:第一、数据仓库规模大、周期长,对类似王韩所在的一些规模比较小的企业用户难以承担。第二、企业目前处于发展阶段,企业制度仍存在不完善之处,如果今后部门需要变动、调整、改变经营结构等,那么是否又会造成数据仓库的变动。而一旦变动,是否又会影响到各部门的数据集市需要相应修改呢?

  王韩确实没了主意,对于他所在的企业,规划数据仓库项目,究竟应该怎么办?(黄昆)

  ◎ 点评专家

  王明远西安中萃可口可乐饮料有限公司资讯经理

  张振坤凌云科技集团有限责任公司信息管理中心主任

  孙林AMT企业资源管理研究中心咨询顾问

  ◎ 《中国计算机用户》周刊读者俱乐部会员评论

  大处着眼 小处着手

  王明远西安中萃可口可乐饮料有限公司资讯经理

  企业规划数据仓库项目时候,遇到最大的困扰或者说被供应商灌输概念最多的可能就是数据仓库和数据集市这两个术语。然而,由于各个供应商的销售策略不同,对术语定义也不统一。

  正所谓卖什么吆喝什么,就如同银行的客户经理,这个月存款任务还没有完成,她会告诉你定期储蓄最安全;下个月开始销售基金,她又会告诉你

股票型基金收益最高。这往往会给企业带来很大的混淆,最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?

  作为普通的消费者,钱是自己辛苦挣来的,买什么产品最终还是得自己拿主意。因此,在CIO王韩做出决定之前,一定要非常清楚数据仓库和数据集市的本质区别是什么?他们适合企业在哪个时间段,哪种需求状况下规划?

  数据仓库是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,我们可以把数据仓库想象成一个大型的博物馆。

  对数据集市的理解除了知道它是部门级的数据仓库外,一定要非常清楚从属型数据集市和独立型数据集市的区别。我想用一个简单的例子说明两者之间的不同。

  情景一:设想一群文物研究人员从博物馆(数据仓库)分别拿出属于他们研究领域的文物(历史数据)在自己的办公室里(各个部门)分别进行分析研究,这些文物在进入博物馆之前已经经过严格的鉴别、分类、筛选等工作。

  情景二:另外有一群文物爱好者每个人家里都有自己的“宝贝”(有可能是赝品),他们用自己喜欢的方式给她取名、收藏和研究。

  情景一就如同从属型数据集市,所有数据都是从数据仓库中获取,部门只是通过数据集市的方法提升查询效率。情景二就如同独立型数据集市,当有一天政府要新盖一座博物馆,大家响应号召一股脑把自家“宝贝”全搬了过去,这座博物馆可能顷刻间变成一个堆放“垃圾”的大仓库。

  从这个例子可以看出令王韩头疼的正是这样一个问题:建“博物馆”规划复杂、投资大,而建独立型数据集市又存在今后整合的风险。

  其实这个问题也是当前数据仓库的两种主流理论(以Ralph Kimball的dimensional modeling 为基础的结构和以Inmon的ER model为基础的结构)争论的焦点问题。

  可以非常清楚地看到Kimball和Inmon对数据仓库和独立数据集市关系定义的差异。

  实际上,选择哪种方法很大程度上取决于企业的商业需求。如果企业正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么Inmon的方法就更好一些。 如果该组织迫切需要给用户提供信息,那么Kimball的方法将满足该需求。

  笔者以为,中国的大部分企业正处于一个快速发展的、充满竞争的商业环境中,企业的规章制度、组织结构、运营模式与国外企业相比还远远未达标准化,数据的原始积累还不够,因此,作为快速解决企业当前存在实际问题的一种有效方法,独立型数据集市是一种极为实用的选择。

  它能够快速地解决企业具体的问题,而且投资规模也比数据仓库小很多。这就如同企业实施ERP系统,笔者个人提倡要小步快跑、步步为营。不要想一口吃个大胖子,结果弄个消化不良,严重的甚至产生“厌食症”,谈ERP色变。

  但是,我们一定要警惕滥用 Kimball的方法,有人认为可以先独立地构建数据集市,当数据集市达到一定的规模再直接转换为数据仓库,并将之作为脱离集中控制而随意构建部门级的数据集市的借口。

  大家知道,多个独立数据集市的累积,是不能形成一个企业级数据仓库的,数据集市为各个部门或工作组所用,各部门之间存在不一致是难免的。

  因为脱离数据仓库的缘故,当多个独立型数据集市增长到一定规模之后,如果没有统一的数据仓库协调(比如数据类型一致性等基本标准都未考虑的话),企业只会又增加一些信息孤岛。当试图跨集市访问数据以获取联合视图时,将造成严重问题。这就如同只是简单地把文物爱好者手中的“宝贝”收集起来,并不能称其为博物馆。

  一个合格的CIO要站在管理者的角度思考问题、提出问题、找到解决问题的辅助方法。很多数据仓库项目不成功的原因除了系统架构的缺陷外,能否真正与业务相结合,能否真正体现管理层的价值才是最关键的。

  因此,作为CIO的王韩在建设独立型数据集市前必须根据企业全面的业务信息和全局的视点制定一个整体决策结构和规划。这个决策是要建立在对未来企业级数据仓库的建设和整合上,保证现在所使用的数据模型能够实现将来企业的战略数据仓库。

  在实施过程中首先划分出数据仓库主要的几个主题区域,逐一划分数据内容和基本的数据模型,形成数据仓库的总体框架,然后在此框架的指导下,根据各部门的业务需求,以一个或者少数几个主题起步,采用自底向上的方法进行数据集市的建设。

  当然,在实际工作中,会遇到很多问题。比如主题和数据模型框架从头设计没有把握;使用外部公司提出的商业框架很难正确评估其科学性、有效性;根据企业自身情况修订这些框架也是高难度、高风险的课题,框架一旦发生错误需要极高的成本来修正。

  可见,数据仓库、数据集市是一种有用的工具,但是在确保成功方面还是有风险存在,其建设是螺旋式上升的迭代过程,很难以一个设计完美的框架来满足不断发展的管理决策需求。因此建立一个数据仓库就像实施ERP系统一样,需要对公司的技术和业务发展策略进行仔细的计划和整合、不断地摸索和改进。

  一个合格的CIO要站在管理者的角度思考问题、提出问题、找到解决问题的辅助方法。

  自身的决定更正确

  张振坤凌云科技集团有限责任公司信息管理中心主任

  在企业里搞IT的人,千万不要钻进技术的牛角尖里面去。本来大家都认为信息化是一个纯技术的活,对信息化敬而远之,不配合不支持,自己还整天念叨着技术术语,人为制造出高深莫测。

  这样只会加深信息化和信息技术的曲高和寡,更加不利于信息化项目的推动。

  在企业进行信息化规划,一定要要根据自己的实际情况进行分析,走最适合自己的路。

  选择数据仓库或者数据集市,从实施的角度看,难度都不小。

  相对来说,数据集市偏重于在某一方面快速见效,数据仓库则更加偏重于总体上的规范化。

  事实上,即便上了数据仓库,也未必会一劳永逸。

  即便是企业规划应用得很好很成功,但也许将来还会有新的理论或者技术,说不定还会出现新的概念和名词,比如数据HUB之类的。

  在信息化的领域里,这样的事情太容易发生了。

  回过头来看过去在实施ERP时,对项目的憧憬和期待恐怕也不亚于现在的数据仓库,但是事实上又怎么样呢?

  上了ERP项目,无非是解决了账本的电子化,计算的自动化,充其量也就是提高了业务部门的工作效率。

  要想解决管理上的问题,还得靠制度的完善、素质的提高、观念的改变。离开了这些非技术因素,纯粹靠信息化手段来实现管理的提升几乎是不可能的。惟技术路线论者只能是秀才造反十年不成。

  有一个企业,是一个非常传统的制造业。

  在很艰苦的环境下,信息部门自力更生,通过几代人的努力,用Foxbase、VB、乃至Delphi、Powerbuilder等建立了自己一系列的应用系统,包括生产统计、财务、物资管理、设备维修等,到现在还在继续使用,有些系统甚至还运行在DOS上。

  前一段时间为了申报政府信息化项目建设扶持资金,他们就面临着很大的困惑:虽说从应用的情况来看,目前这些系统都运行得非常好。

  但从技术层面上讲,他们现在的应用系统难以上大雅之堂。难道真的要为了采用所谓的先进技术而对现在的系统进行推倒重来,重新建设吗?

  其实,很多企业搞IT在很多时候尽管不是很得法,但是很执着,以自己的方式进行,效果也还不错。而信息化方面的权威和专家,他们总是在各种场合提出最先进的理论和技术,告诉企业什么是对的、什么是错的。

  为了显示自己的权威性,到处指手划脚,给企业指出这里不对,那儿需要修改,否则就是不完整的、不规范的、不先进的信息化了,甚至会告诉你这根本就不是信息化,搞得企业无所适从。

  话题绕远了,还是回过头来说数据仓库的问题。

  其实,数据仓库也好,数据集市也罢,还有什么商业智能之类的,都是概念。

  说到底,最终都是为了在现有信息化应用的基础上,对数据进行有效的利用,对决策提供支持信息。

  二者的区别无非是实施的过程和方法不同而已。数据集市自下而上,数据仓库则自上而下。

  理想的“自上而下”,即一个企业建立惟一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的、能够提供统一的视图。

  要建立这样的数据仓库,并不从它需要支持哪些应用入手,而是要从整个企业的环境入手,分析其中的概念,即应该有什么样的数据达成概念的完整性。

  而“自下而上”的做法,则是强调应用决定数据,有什么应用就获取什么数据。

  到底该如何选择,其实企业自身的决定往往会更正确。企业的信息化规划、主动权一定要抓在自己的手里。

  专家的意见只能用于参考、扩展视野、开阔思路,千万不能照搬照用。要相信自己,真正的专家就在企业内部。

  到底该如何选择,其实企业自身的决定往往会更正确。企业的信息化规划、主动权一定要抓在自己的手里。

  分步实施 急用先行

  孙林 AMT企业资源管理研究中心咨询顾问

  数据仓库项目的建设,同大多信息系统的实施相比较,往往是个持久的过程。这是由于数据仓库软件所发挥的决策支持作用所决定的。

  数据仓库不同于流程管理软件,对于ERP、CRM等系统,其覆盖的企业业务活动,无论是采购、制造还是发货,成熟企业内部的业务运作流程往往比较稳定,变更并不频繁;而面对激烈的市场竞争,管理层决策所需要的信息却不断变化、日益复杂。

  数据仓库的建设,就是为管理层的分析、决策提供支持。就拿烟草企业来讲,对于烟草销量的分析,一开始的需求可能仅仅是从卷烟名称、销售网点地区分布的维度来分析就足够了,随着管理的精细化和销售预测的需要,可能又会逐渐地增加卷烟系列、卷烟价格、焦油含量等维度。

  随着企业从粗放型转向集约型,什么好卖就生产什么的时代已经一去不复返。越来越多的企业越来越注重市场和消费者行为调研,根据产品的历史销售情况进行多维度分析,寻找高利润弱竞争的市场并制定相应的营销计划,寻找适合企业的市场定位和目标选择,并且有计划地开展营销活动,最终使企业低成本、高效率的实现业务扩张。

  而在市场定位和目标市场选择的决策过程中,管理者往往需要大量的信息支持。这些信息,包括分析的内容、切分的维度,往往随着市场环境的变化以及消费者行为的变化而变化。而市场环境和消费者行为的不确定性,要求数据仓库对其提供的支持也就相应地在不同阶段会有所不同,体现在数据仓库的模型设计,可能会经常性的增加或减少一些分析主题和维度。

  一成不变的数据仓库设计,是无法满足企业管理者的决策需要。

  除此之外,数据仓库作为企业绩效管理软件,可以为企业、部门以及员工提供及时的KPI监测。随着企业管理的关注点不同,KPI的设计基本上也是以年为频率,不断变化。可能今年关注成本、明年关注效率。这一点,也要求数据仓库能够满足变化的需求。

  另外,从企业的实际情况来看,分步实施也是比较现实、可行的解决方案。

 [1] [2] [下一页]

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

新浪公司 版权所有