科技时代新浪首页 > 科技时代 > 业界 > 2006数字出版年会专题 > 正文

张振海:学术文献网络出版平台的发展趋势


http://www.sina.com.cn 2006年10月17日 10:54 新浪科技

  10月13日,2006数字出版年会在香山饭店召开。年会将从科技发展形势、出版产业预景、数字技术介绍、实务交流合作等层面深度探讨我国出版产业战略重塑和未来发展之路。

  以下为清华同方知网(北京)技术有限公司总工程师 张振海的演讲全文:

  大家知道,现在做数字出版是一个很大的发展趋势,我在演讲之前,简单的讲一下
为什么做网络出版平台。各个出版社和内容服务商都做自己的网络出版,有没有必要做一个更大的,或者集成度更高的,大家广泛参与和利用的平台?传统出版商的出版特点是内容相对孤立。一个出版社一年出几百个题目,和另外一个出版社出的题目是没有关联的,即便是同一个出版社,编辑之间出内容也是没有什么关系的。

  出版产品以后,和编辑、创作者缺乏交流和交互,出版商和内容的生产者很难知道,这些产品在市场上实际的应用和关注度。流行的作品比较好说,市场的销量方面,都可以看得见,而音乐作品、学术文献等,因为很专业,涉及面也很窄,只在一个领域,甚至全球只有很少的读者,我们怎么样获得评价来改进我们的出版。

  从创业开始到准备组织到出来,包括修改的过程,我们的用户是很难参与这个过程的。这里面组织内容、规划内容的过程本身所凝聚的知识和凝聚的经验,都没有在内容里完整的保留出来。所以,用户使用的时候也会存在一些困难,也难以参与内容的全面发展。再一个就是速度比较慢。另外,出版资源浪费也比较严重。

  全国有那么多的出版社、出版专家,有很多的出版专家很忙,各方面的硬件资源、人力资源、智力资源都没有得到很好的利用和整合。发展出版平台,学术资源或者学术文献的出版平台,主要是把出版资源集中起来,使得出版商可以共享出版资源,加快学术文献的生产和创作。内容可以集中,内容集中可以带来很多好处。另外,内容和内容本身要结合,不仅是简单的放在一起,堆在一堆,实际上

图书馆就是起把内容堆在一个大房子里的作用,但是并没有使内容结合在一起。用户使用的时候,还是一本书一本书、一本杂志一本杂志、一个影片一个影片的看,内容没有关联。再一个,技术和内容结合得还不是十分完全,没有充分利用网络技术和数字技术,带给消费者内容需求上的便利性,这还没有完全结合起来。

  出版商要更多的关注最终用户。一个是读者,他对内容是不是满意,满意到什么程度,再一个就是作者,作者对创作的作品是不是满意,是不是能够获得更好的书,作者想出的书,是不是能很快地出来。大家知道,我们现在的出版周期很长,由于各种各样的原因,需要很长时间才能把一个新的文献出来。学术文献创作的速度或者是读者对文献发展的速度要求应该说是远远超过目前学术文献出版领域所提供的速度。这对国内学术文化的发展意义是非常重要的。我们老是把英文的文献读读,翻译翻译,改成自己的

学习心得。我想这种情况,在学术文献出版领域还是非常多的,尤其是学术图书,我们引进的非常多,使我们自主创作的文献很难有更好的发展机会。

  我们这个平台有几个特点:能够满足或者解决刚才提到的问题。第一,这个平台应该有资源支持,应该广泛的给读者、作者、出版者、编辑共同使用的资源来支持,方便利用这些资源,方便创作这些资源,方便出版的资源,提高出版的质量。大家知道,现在不但出版质量下降,文字质量、创作质量都在下降。前一段听媒体报道,某某出版社的教科书里都有很多的文字错误,这说明我们对核心资源的利用程度是很低的,特别是现在知识发展的资源量很大,学的东西很多。要求每个编辑都了解那么多的内容也是很难的,我们能不能有一个平台帮助编辑,包括我们的创建者克服这些问题,需要技术来支持。这些资源不是放在一起就能够解决问题,拥有更多的资源,这个出版社都可以提供保障,出版社买很多的工具书和专著,自己也出很多的专著,大的图书馆有专门的阅览室,几百万本的藏书应该没有问题,但是没有办法用,不能帮助读者占有这个东西。所以,买了这个东西,不等于你真的拥有它,只是从财产上拥有它,而不能从知识上拥有它。另外,面对一整套的资源环境,要把资源好好的利用,把整个的环境连接在一起,科研环境、学习环境、阅读环境结合在一起,这样的话,资源的价值才能够一步一步地、更大地满足用户对资源的需求。应该涵盖文献出版的过程,这个环境应该是能够满足出版者和最后的享受者共同协作的一个好的环境。

  第二,这个平台包含的内容,包括查找、组织、反馈、对出版的质量进行评价、帮助学习和研究,也帮助出版商采集稿件,组织出版稿件,也能够进行一些商务处理,使出版资源销售出去,也能够满足不同作者的需求等等。

  第三,平台的目标有以下几点:PDO,就是需要出版。我们不仅仅是按需印刷,彩铃、短信,只是一条就出版了,所以,出版的概念并不是说印什么才叫出版物,应该定义为以内容作品、贸易为主要特征的行为,或者是活动就应该称之为出版。有时,可能读者需要一点点内容,我就专门为这个人出版一点,比如说ROD—需要就读。我需要读的时候,就要读到我想读的内容。还有就是想到就有—TOD,人的思维不会按照出版者或者专家所编好的教科书体系按部就班的思考,是发散的、跳跃的,特别是创新性思维。因此,我想到的时候,就能够获得想到知识资源的支持,只有这样,我们才能能够走得更快、站得更高、看得更远。

  大家知道一句话,“我们站在巨人的肩膀上”,我们已经有那么多书了,国家图书馆有几千万册的藏书,这个巨人已经够大了,但是大家没有站在巨人的肩膀上。我们希望这个平台能够使服务者站在巨人的肩膀上,在任何时间、地点将合适的知识传给合适的人、需要知识的人,这是这个平台最终的目标。

  这个平台对传统的出版有一些变革,这个出版不是间断的,是不停顿的。再有就是动态出版,内容的组织、体系的组织,而且能够自动地实现内容的重组,来减轻作品的作者的负担。这样的网络出版平台,体现的技术制高点在什么地方,就是三个方面,一个是内容,一个是组织,一个是变革。我们原有的书、报、刊,内容的组织方式是平面化,或者是顺序执行的。这是不符合我们的思维习惯的,我们怎么组织才能更大、更好地满足读者内容的要求。

  内容要处理的好。大家知道,内容组织在我们身边带来最大的变革是什么?互联网通信技术给我们带来了变革,实际上最本质的变革是WWW的变革,把文件、把页页的组织改成超链接的形式,这个组织内容的改变,是由顺序的改为非顺序的改变,影响了这个世界,而不是通信技术。通信在WWW之前就有了。但是有了这个以后,互联网一夜之间使普通的老百姓享受到通信技术带来的价值。所以,互联网的发展,从本质上是内容组织形态的变化,使得整个世界发生了改变。

  关于内容挖掘技术。我们现在都是靠网民无组织形成的,对出版社来说这远远不够,我们需要内容的深层次的挖掘技术。我们对知识的需求,对内容的需求都是层次很深的。比如说,我们想知道今天来开会的重要人物,除非媒体上就有报道,我们看的人怎么能一下子知道2006年中国数字出版年会有多少个代表,这些代表来自于哪些行业和地区,在媒体发布的稿子上可能都有,但是查比较难。又如2006年上半年数字出版行业市场份额有多大,网上可能有这样的报道,怎么一下子搜到这样的报道或者是数字的内容,现有的搜索引擎也好,内容组织方式也好,很难直接为读者提供这样的服务。这也是我们这个平台所解决和尝试去解决的内容。

  我们在这个平台里,把内容分成几块,比如说像辞典、辞书、工具书,这个东西已经陈列几千年了,再有就是工具书类、年鉴、统计资料也是一些数据,还有政治出版物,比如说图书、期刊、报纸,专利/标准等等,还有非出版物,比如说今天的会议,演讲者所提供的原稿都是非正式出版物,这些资源从核心知识、一般知识、正式出版物到非出版物,核心资源是作为内容支撑的东西。所有的其他的资源都是在核心资源的支持下,进一步地发挥传播功能和利用价值。

  这样的资源合在一起,希望有一个形式来组织,我们清华同方知网在2000年希望通过知识网络的形式来组织,这个定义比较拗口。比如说按照一定的规则将知识信息载体(包括期刊、论文、图书、作者等等),的一些特征进行关联链接整合构成的描述潜在知识信息关系的网络。这里面提到的期刊、图书、作者、读者,我们统统把这些内容称为信息载体,如作者、读者,作者是内容的创建者,他所拥有的知识是很大量的,大量的简单信息没有办法通过显示的方式来描述表达。读者也有知识,反映在我们利用资源的时候,怎么选择资源,需求反映层次,反映这个领域未来的扩展的方向。所以我们重视核心资源,也重视作者的资源、读者的资源,这是这个平台的重要特色。我们有时候碰到困难,自己找一个解决办法,研究一个理论很难,还不如找一个专家,一问就知道,可以节约了大量的时间和精力。再有就是网络分为三个类似,有文献网络、引证网络、作者网络、概念网络等等形成以对象为中心的揭示各种相关信息内容的一个结构。

  知识网络设计的核心是什么,一个是揭示内容之间的关系。再一个,这个内容要从原来的无序状态变成显示的有序状态。我们说任何东西,从无序到有序就产生了知识。

  下面我简单的介绍一下网络设计的方法,基于对关系的资源组织分析。关系就是对空间的划分。图书资源,或者是期刊资源,按照作者来做、按照引证关系来做等等,这些划分,每一个点都是关系的揭示。

  如引证关系,其实引证关系是一个最基本的揭示内容,不仅可以说是揭示文献的参考关系,它可以揭示概念的参考关系,比如说一个概念,一个专家引用另外一个专家的观点,不仅仅是在自然科学、工程领域里大量的引用别人的参考文献和专利技术,在涉外经济里,在人文学科里,大量的历史典章典籍被引经据典的引用。有时候没有办法考证别人的观点和来龙去脉,我们只能靠专家看了这些书、记下这些东西来才能考证。不同版本的差异,说法的差异,一个字、几个词的差异,我们能把所有的关于概念的、证据的、事实的、数据的引用关系,都能够理顺、理清,对于我们来说,核查这些文献本身的质量,核查论点、论据是否成立,核查这个结论是否是一个创新,对保障学术出版的质量是至关重要的。现在很多文献出来以后,参考文献是瞎写,论证是瞎编,产生了不好的影响。

  概念网络。原来产生概念很困难,概念的外延、内涵、应用,怎么应用等等很难,所以,应该建立概念网络。我们现在概念网络已经确定了200万概念的辞典,首先是确立概念的对象关系,就是以作者为中心揭示作者的学术活动。比如说这个作者发表的文献和作者、文献被引用的情况,相同研究方向的作者,文献发表主要所在媒体,如期刊、科学报告等等。

  建这个平台,要求资源权威,资源必须是质量很高的资源。希望在某一个领域里,资源组织要关系丰富、越多越好,而且资源要合法。满足这些条件的用户,我们才能更好地服务于信息生产者、制造者以及使用者。再一个就是反映和评价,我们在这个平台里可以更好地和用户沟通,把内容进行分析,我们的读者和分布者怎么样,他们需要什么,关注什么,为下一步出版、策划提供了资源。

  这个工作需要什么样的技术,比如说内容的语网技术、搜索技术、分析技术等等。

  深度搜索的技术。学术文献领域,大量的公式、概念,数值、表格,对学术研究来讲非常重要,非常有价值。现有的搜索引擎都不能满足这样的要求,直接搜索一个公式、一个表格、一个图片,这样的内容能够提供的话,一个表格可以出版,一个图片、一个概念解释也可以出版,这样更好地满足了用户在使用过程和领域的氛围和不同的需求。我们把这个搜索叫深度搜索,目前是表层的,是一本书、一个网站、一个网页等,至于里面的内容是什么,现在的技术还达不到。虽然我们清华同方做了很好的尝试。

  再一个技术,被用户所利用的文档应该不是分开的,现有的网络平台、技术,我们买了这本书以后,这本书和出版商没有关系,就和出版社提供的其他的资源也没有关系了,割裂了用户的使用,用户使用的时候,就会碰到更多问题,一个事实需要核对,一个数据需要考核、考证,没有办法做。整个的用法割裂了。因此,我们提出了智能文档技术,把现有的文档和平台的关联的文献,和专业的学术专著关联起来,帮助读者更好地开展学术研究,当然,很多新的技术,在这个平台里得到进一步的体现。如中文的支持,新的出版形式的衔接等等方面的使用。

  另外还有刚才提到的,建立这个平台需要提供一个全方位的、全环境的研究,可以利用这个平台进行讨论,协同的研究工作。在进行这些活动的时候,可以很好地使用我们的资源。开会的时候,想使用什么资源就使用什么资源,比如说现在开会,我要核对某一个产值的数据,马上可以上一个平台,一查就可以知道这个数据,原来准备的不清楚,现在可以在学术研究的过程,直接调用这些知识库的知识,获得最好的资源支持,这对我们学术研究和交流都是非常重要的。当然,还有其他的系统。

  我们讲这个出版平台还有一个很大的功能就是为出版服务,这是最主要的功能之一。我们的投稿、选稿,稿件的管理。比如说选择专家,大家知道出版社选择专家的时候,因为编辑的关系资源有限,有时候很难找到合适的专家,在我们这个平台里,可以提供成千上万的专家供其选择。在学者库的平台里,我们提供了572个专家,这些专家都发表过文献,他们这些文献或多或少的用过。比如说一篇文章我们找合适的把关者,可以利用这个平台,利用内容的相似性和接近性来选择专家,非常准确和快速。特别是对稿件的审理,我们出一本书、一篇文章,这篇文章新还是旧,编辑由于精力的关系,很难把握得准,我们利用我们的系统,完全可以对他的观点进行分析,是不是这些工作有其他的人做过,谁在做,我们可以把他和别的人对比、分析,确保学术文献出版的质量和水平,杜绝大量的抄袭和重复工作,现在这方面大家都非常关注,如果这个平台建立起来,是一个很重要的贡献。一个文献在没有出版的时候,我们就给它做出分析,观点、引证情况,相关的基本情况等等,便于其他专家审这些稿件,也帮助编辑确定这些稿件是否值得出版。还可以发布学术信息,发布出版信息整体的学术环境。

  除了刚才讲的网上的读者的使用情况得到及时的反馈外,还应该提供全面的线下分析。其他的出版物对这个系统,对这个文献利用情况、引用情况、下载情况等等。比如说对读书情况的评价很难有客观标准,除去通常的评价以外,我们目前在学术期刊里引用图书的引用量,大概有500多万条,其中形成独立书目的有30万本书被引用过,引用的排名、时间的分布,我们每年都可以及时的为出版社提供这样的数据,提供学术文献被引用、被利用的情况,帮助出版社更好的利用这方面的资源。另外,这样的平台有助于很好的开展标准化的工作,包括资源的标准、技术的标准、质量的标准和服务的标准等。

  我的汇报就到这里,谢谢各位专家!

发表评论 _COUNT_条

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

新浪公司 版权所有