科技时代新浪首页 > 科技时代 > 业界 > 书生SEP文档库技术发布专题 > 正文

书生公司推出SEP文档库技术


http://www.sina.com.cn 2005年12月15日 20:02 新浪科技

  最近几年,我国的软件产业日益被经济界和政府所关注,但软件产业的发展仍面临着重重阻碍,如何打破由美国企业构成的坚实的市场垒壁,形成中国软件产业的核心优势成为业界关注的焦点。UOML和SEP文档库技术的出现使这种期望露出了第一线曙光……

  中国软件业因何落后?

  中国软件业的发展已经走过了数十个年头,但是,政府和企业的大量投入并没有从根本上改变中国软件业在全球软件产业中局限于应用领域开发的命运,原因何在?

  在我国现有的软件企业里,用友、金蝶、东软、速达等一批软件企业经过过去十多年的努力已经初具规模,但仍然无法与国外相应公司(如SAP、PeopleSoft)抗衡,更不用说一些世界级的软件巨头(如微软、IBM软件部、ORACLE、SYBASE等)了。相比起来,国内这些软件公司的营业规模连零头也算不上。很多人试图在资金投入,在起步时间等一系列客观因素上找到答案,但往往无果而终。

  信息产业企业的发展,最核心的关键既不是资金,也不是起步时间,而是对核心技术及技术架构标准的掌握。有了核心技术,资金可以通过

资本市场获得,起步时间晚也一样可以“快鱼吃慢鱼”。而中国软件业发展的不尽人意最关键的问题恰恰在于中国的软件企业没有真正的核心技术,相关的标准也大多掌握在美国企业手中。因此,中国的软件产业无法掌握自己的命运。这种情况下,难以产生世界级的软件企业也就成为情理之中的结果。

  在别人建立的戏台子上唱戏,唱得再好也只是一个演员。那么,难道我国的软件产业就没有超越的希望了吗?

  要回答这个问题首先要从整个结构化信息产业构架的形成谈起。上世纪70年代初,IBM的研究中心相继提出了关系型数据库模型和SQL(结构化查询语言),这两个技术模型的提出和完善为结构化信息产业的发展奠定了最重要的理论基础。

  此后,DB2、ORACLE等一些数据库产品开始发展,并迅速成为全球屈指可数的软件产品。而其他应用软件在使用结构化数据时,可以通过SQL对任何一家关系型数据库企业提供的数据库中的数据进行操作。它使结构化信息产业分工变得清晰和层次化,从而使这一产业进入高速发展的黄金时期。ERP、MIS、财务软件、EAM等这样的大中型软件及一些小型的个人软件都是针对结构化数据进行处理,数据库对全球软件产业的发展来说,其核心地位和重要性不言而喻。

  可以说,关系型数据模式和SQL是驱动整个结构化信息产业发展的核心“芯片”。这种核心“芯片”掌握在美国企业手中,中国的软件产业自然无法超越这些软件巨头。

  构建非结构化信息产业

  中国的软件产业无法在结构化信息产业中获得主动地位,但历史并不会停留在这一个领域内。整个信息产业还有更大的市场有待开发:这就是非结构化信息应用。

  通俗地说,结构化信息是一些可以用表格来描述的信息。除此之外还有大量的文档、流媒体信息等非结构化信息。但事实上,现实社会中,非结构化信息占据着80%以上的份额。这部分信息目前仍处于低效率的处理阶段,它给世界信息产业发展留下了空间,也给中国软件产业的跨越式发展带来了契机。

  目前的非结构化信息处理仍处于类似于上世纪70年代以前的结构化信息应用。割裂地、无法进行数据互操作的应用是它的主流。以人们最常用的文档软件来看,DOC文档是MS WORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难。我们可以想象,有多少信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。

  基于诸如此类的问题和现状,文档库技术的成展成为信息产业下一步发展不可避免的潮流。文档库产业也将成为一个比数据库产业更加重要的核心产业,关系到信息技术的发展进程。文档库技术应用意味着文档信息可以像结构化信息应用操作一样,文档信息的构建只要符合一个特定的数学模型,并设计一种可以对所有符合这种数学模型的文档进行各种操作的标准,文档应用软件就可以对所有此类文档进行相应的操作——就像一个ERP软件通过SQL操作关系型数据库时可以不必去考虑你底层用的是DB2还是ORACLE一样。

  一个令人振奋的消息是,北京书生公司近日宣布推出了其SEP文档库技术,并已经形成可以实际应用的文档模型描述和相应的操作标准——UOML(Unstructured Operation Markup Language,非结构化操作标记语言)。这意味着,中国的企业有可能成为非结构化信息产业发展中核心技术的持有者和标准的制订者。

  可以想象,占整个信息领域20%的结构化信息产业发展带来了超过千亿美元量级的产业,那么,占整个信息领域80%的非结构化信息产业一旦走上正轨,它将带来怎样的市场机会。这是很多人不敢想象的数字!

  按照书生董事长王东临教授的介绍,由书生公司发起的UOML联盟已经启动,TRS、中文2000、汉王、中科院软件所、中标、中科启信、星火燎原等国内的IT企业已加入其中,理光、Fatwire、Autonomy等单位也均有意向加入联盟,正在洽谈过程中。作为计划推进的一部分,加入UOML联盟的企业将首先实现相关操作的互操作问题。如10家联盟企业有各自的文档处理软件,以往这10种软件所保存的文档无法被其他软件操作,而加入联盟后的这10种软件可以操作其他任何一个软件生成的文档。由于文档库及UOML的应用,这些软件完成这种改造只需要一两个小时到一个星期的开发工作(视操作功能而定)。“比如其中有一家加入联盟的企业只是想让他的软件可以打开符合UOML标准的文档,那他只需要花一天去修改他的软件。”

  这既是文档库技术给文档信息处理带来的巨大优势,也是推动非结构化信息产业发展的关键。

  SEP文档库:三千越甲要吞吴

  王东临教授说:“为了等待这一天,我们已经经历了十年的卧薪尝胆。如果只是从企业利润的角度,我们做一些短平快的项目会更容易见到效益。但那样的工作并不可能让中国的软件业彻底改变它在世界软件产业的地位,而我们希望做一种尝试,一种能让中国软件业打翻身战的尝试。文档库技术的成功推出是书生十年的结晶,也是软件产业前所未有的尝试。因为我们相信,中国软件产业要想超越世界软件巨头的阴影,就必须在核心技术领域有持续不断地创新。SEP文档库技术让我们看到了这样的曙光。”

  我们期待,UOML联盟将会发展成为像JCP(

JAVA技术规范组织)一样的一个组织,通过这个组织的发展,以文档库技术为核心,将文档信息领域相关的IT企业组成一个新的、有利于产业发展的产业格局,各类涉及文档处理技术的软件企业将会在这新的产业中找到更适合、前景更美好的发展之路。

  对于UOML联盟的成立,业内人士给予了极高的评价。中国软件行业协会会长陈冲认为,结构化数据是信息产业中非常重要的一个领域,其数据库软件也成为控制产业命脉的核心技术。非结构化文档是一个比结构化数据还要宽广的领域,其核心技术将更为重要。书生公司在非结构化文档领域取得的成就,使中国软件业在产业核心技术领域取得了历史性突破。

  北京拓尔思(TRS)信息技术有限公司董事长施水才先生指出:书生推出的SEP文档库技术,以及其以调用接口为标准的模式很好地为我们解决了这一难题。通过统一的UOML标准就可以统一提取信息,特别是可以完全控制文档内容的显示,而且不破坏集成界面。开发非常简单,仅仅需要调用几条命令就可以实现。在内容处理领域可谓是个创举。

  中文2000总经理胡才勇说:“由于业界缺少统一的文档格式标准,导致目前文档都依赖于特定的软件,不能在不同软件之间无缝通用;而个别占主流地位的软件厂家更是以自己的文档格式作为竞争和打击对手的工具,因此,文档互操作是软件业长期以来一直没有解决的一大难题。Adobe的PDF技术代表此前国际上的最高水平,但也只能解决在不同的人之间交换文档,不能解决在不同的软件之间交换文档的问题。书生公司发明的文档库技术第一次为文档互操作提供了一条可行之路,对国产Office软件来说具有十分重大的实用价值。”

  SEP文档库技术刚刚诞生,过早地预言它在多年以后能否像现在的关系型数据库那边成功还为时过早。但是,SEP文档库技术的推出无疑为中国软件产业的发展带来了新视野,为中国软件企业的跨越式发展带来了曙光。它让人们看到,持续创新不仅可以促使中国软件产业的发展,而且终将让中国成为世界软件发展的源动力。

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网