科技时代新浪首页 > 科技时代 > 互联网 > 新浪科技评论空间专题 > 正文

薛海滨:学术搜索 不学有术


http://www.sina.com.cn 2006年01月13日 09:30 ChinaByte

  作者: 薛海滨

  对于中文使用者而言,下面的报道无疑是个好消息:

  在1月11日和12日这两天,全球互联网第一搜索引擎Google和第一中文搜索引擎百度,几乎是不约而同地把焦点瞄准了中文:Google发布了其学术搜索的中文版(scholar.googl
e.com),百度则发布了其国学搜索(guoxue.baidu.con)。

  Google学术搜索可以帮助使用者准确搜索到某一领域的学术文献。据Google全球副总裁、中国区总裁李开复称,目前全球互联网上的中文学术文献的数量仅次于英文,中文已经成为互联网第二大语言,这也是Google积极推出中文学术搜索的主要动力。

  目前,Google 学术捜索可搜索到用西欧语言、中文和巴西葡萄牙语撰写的文献。百度国学则主要专注于中国传统历史文化领域的资料搜索。目前两者均免费。

  没有上网,也能找到

  记者最近正在研读《隋书》(中华书局版),就随便在Google学术搜索上查了一下该书的主编“魏征”,结果第一条就是唐朝魏征主编的《隋书》。同一时刻(1月12日9:30),在百度国学上没有找到任何结果。

  不过,Google学术搜索这第一条结果无法点击进去,该条目最左边的方括号中写着“引用”两字。

  据Google资深工程师赵羽可介绍,Google学术搜索除了能否检索到大部分已经上网的学术文献外,还可以通过对这些在线文献进行逻辑分析,找出那些没有上网的、但也许更加重要的文献,魏征主编的《隋书》就是一例。

  原来,有许多在线的学术文章中都引用了该书的内容,版本也多为中华书局版,于是,该版就成为“魏征”词条下最重要的一条结果。当然,该书是否在线并不是研究者的最大障碍,重要的是,研究者知道了确实还有这么一本书可以参考。

  Google学术搜索涵盖了各方面文献(百度目前仅限于国学等几个领域),包括没有上网的文献,比如,爱因斯坦的很多著作并未在线发布,但却被众多学者所引用,通过Google学术搜索,一样能找到这些被引用文献的名称、版本、作者、出版日期、出版社、内容摘要等信息。通过提供这些引用信息,使研究者了解到许多重要的未上线文献。

  Google杰出工程师Anurag Acharya说:“我们不知道下一个重要的突破会来自哪里,但我们相信,通过使各地研究者更轻松地了解在全球范围内已取得的研究成果,我们可以对他们有所帮助。”

  搜索结果的排名顺序对研究者而言,可能比普通用户更为重要。

  赵羽可介绍,Google学术搜索的文献排名是严格按照文章的学术价值来进行的,参考因素包括文献、作者、出版者的权威性,被引用的次数等,与普通 Google网页排名大有不同。

  例如,查询“Human Genome”(人类基因组),普通 Google搜索结果超过700万个,排名在前面的都是机构首页,包括美国能源部、美国国家卫生研究院等,到了20名前后才出现刊登于《自然》、《科学》的相关文章。而Google学术搜索只命中39万个结果,排名前10位的都是在《自然》、《科学》等著名学术媒体上发表的文章。至于学术搜索的结果排名是否与Pagerank排名相似,赵羽可认为,有类似地方,但也有大不同。

  “鱼香”是怎么来的

  Google虽然给这个新鲜玩意起了个“学术搜索”的名字,但它一点也没有学者的“严肃”气质,反而活泼得很。这个新鲜玩意并不是学者的禁脔,每个充满好奇心的普通用户都可以自由把玩。

  “Google学术搜索不仅仅面对学者和专家,普通用户也可以从中获得许多知识。”李开复说。比如,你用学术搜索检索一下“鱼香肉丝”这个关键词,得到的结果十分有趣,其中有不少问题是你以前无法解答、甚至根本没有想过的,如:鱼香肉丝的“鱼香”是怎么来的。

  Google学术搜索的口号是“站在巨人肩上”,利用这个学习工具,你完全有可能成为某一领域的专家,即使你现在还只是一个该领域的门外汉。

  事实上,Google学术搜索并不是一个完全独立的产品,它只是Google网页搜索的庞大数据库的一个子集。据赵羽可介绍,该子集建立在Google网页数据库的学术索引上,通过该索引,用户可以在一个更加准确的专业子集上搜索,结果虽然很专,但并不意味着可搜索的领域减少了,与Google网页搜索的领域并无太大差异。

  与Google网页搜索一样,Google学术搜索根据相关性对搜索结果进行排序,最相关的信息显示在页面上方。这一排序同时考虑到每篇文章的全文内容、作者、发表该文章的刊物,以及该文章被其它学术著作引用的次数等要素。在可能的情况下,Google学术搜索还会搜索全文,而不仅仅只是摘要部分,给予用户对学术内容全面深入的搜索,同时也加强了搜索结果的相关性。

  学术搜索对浩如烟海的信息进行了二次提炼,已经显示出了巨大的可用价值,我们现在还无法预测未来的第三次信息提炼将会是什么样子,但不断的信息提炼过程,已经在学习者提供了不同版本的“随需应变”(On Demand)的网上教材,通过这些虚拟教材,我们普通用户也有可能实现“不学有术”的梦想。

  学术搜索是怎样炼成的

  “学术搜索从想法到产品,仅用了9个月,开发者只有4个人:1个产品经理,3个工程师。”李开复说。

  学术搜索的提出者是Google搜索的资深工程师之一,他最初的想法是:网上有很多为公众用户提供服务的搜索引擎,但很少有为专业人士提供服务的同类产品。

  于是,他就在Google内部提出了自己的想法,立刻得到了一些同事的响应。

  在Google内部有两个有趣的约定:第一,每个工程师都有20%的时间干自己想干的事;第二,Google大部分产品的提出,不是由公司高层决定,而是由投票决定,使用者足够多的产品就是好产品、可保留产品。

  Google学术搜索之所以仅用了不到36人月就形成产品,确实与上面两个约定有很大关系。

  当然,还得有一个重要保障:公司不能急功近利。

  尽管Google是一个商业公司,但其所有产品的目标居然都不是“公司利润最大化”,而是“用户利益最大化”。

  李开复称:“Google学术搜索没有收费计划。”按照Google以往的惯例,学术搜索很可能是永久免费的。据悉,目前与Google合作的信息内容提供者如万方数据、维普资讯等,与Google相互之间都是免费的。

  尽最大可能将免费服务进行到底,是Google公司宗旨“不做坏事也能赚钱”的外延。

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

版权所有 新浪网