科技时代新浪首页 > 科技时代 > 业界 > 21世纪的计算专题 > 正文

洪小文:第三代搜索技术我们有前瞻性的想法


http://www.sina.com.cn 2005年11月01日 14:19 新浪科技
科技时代_洪小文:第三代搜索技术我们有前瞻性的想法
图为:微软亚洲研究院副院长洪小文博士。(骆磊 摄)
点击此处查看全部科技图片

  新浪科技讯 11月1日,第七届“二十一世纪的计算”大型学术研讨会在杭州召开。届时国际著名的计算机大师包括图灵奖获得者、美国国家工程院院士及美国国家科学院院士等多位著名科学家莅临大会。新浪科技在现场对数位演讲嘉宾进行了独家在线访谈。

  以下为对微软亚洲研究院副院长洪小文博士的在线访谈实录:

  主持人:您能否介绍一下什么是以数据为核心的计算,大概与以运用为中心的计算有什么不同?

  洪小文:以数据为核心的计算与以运用为中心的计算最大的不同点是你所聚焦的东西是在数据本身。其实我们的信息、咨询,我们需要知识,原始数据本身人不见得很清楚地知道这里面所含的咨询和信息,你所着重的就是怎么样从这些原始数据能够提取有用的咨询和信息,几乎所有的用户可能都不知道到底要哪些应用程序,他所知道的是从原始数据当中提取有用的信息和咨询可以用,这就是以数据为核心的计算。从20年早期开始,从DOS过渡到Windows那段时间这个概念就已经产生了,比如说早期的电脑你可能知道我现在在做Excle,我现在在用E—mail的软件,但是现在到了新的Windows以后,你只要点击你要工作的那个文件档,它就会把他所需要的应用软件调出来。甚至在Word里面可能有一个Excle的一个表,你可能还在这个文件里面,这就是一种以数据为核心的计算,就是说你现在关注的是你在处理的这些文件和资料。现在互联网上到处都是资料、到处都是咨询,我们怎么样把这些海量的、看起来很杂乱的信息能够把它做成各种互联网的用户,针对不同的领域、针对不同的用户能够提供有效的服务,这就是二十一世纪新一代的互联网发展的趋势,完全是着重于以数据为中心的。现在大家所知道的,一些模式的识别里面也是收集了很多资料,来验证整个程序的正确性,还有生物科技的计算,也是收集了一大堆人类基因的一些信息,从这里面找到一些可能治愈的方法以及药物,这些都是属于以数据为核心的计算应用。

  主持人:今天演讲的嘉宾哪些是以数据为中心的?

  洪小文:这次我们挑选的几乎每一位嘉宾都有从事这方面相关的研究,比如第一个演讲者Rick Rashid,是我们微软研究院的高级副总裁,整个研究院里面有非常多的项目,比如说你怎么把Windows PLUS危机集成,因为有了海量信息以后你需要有很强的硬件和软件系统进行处理,另外是SBas我们从97年、98年就开始做这方面的信息,怎么样把卫星传下来的地球图像能够很及时地把资料展现在用户面前,这也是我们现在的一个虚拟地球的计划,有很多这样的例子。第二个演讲者Ronald L.Rivest,他是2002年图灵奖的获得者,他是信息保密方面的专家,他跟其他两位同事发明的RSA系统是现在几乎所有信息保密都要用的一个技术。以数据为中心的计算价值在数据上,变成国防上、商业上的机密,你当然要保密,特别是你有海量的信息,怎么样去保密它,这也是属于以数据为中心的计算很重要的一点。第三个演讲者Jeannette Wing,他是CMU计算机学系的教授跟系主任,他也是拿以数据为中心的计算提炼出我们怎么样去写一个软件,让软件能够有个可预期性,能够用大量的数据侦错程序里面的错误,她在做这方面的研究。第四位是Alexander Gounares,他是Bill Gates的技术顾问,他帮助Bill Gates也帮助微软在互联网搜索,特别是新一代的互联网服务上面,做出很多技术上的前瞻性的规划以及实现。特别是我刚刚提到的,很多互联网搜索跟挖掘上面微软的项目,都是由他来帮助Bill Gates跟微软大力推动的,所以这些都是非常相关的。下午还有四个演讲人,每个人都会以数据为中心的基础上做演讲和阐述。

  主持人:未来的计算机要能够看、听、学,要能够实现自然语言的交流,这中间实现的最大障碍是什么?

  洪小文:在今天答问的时候也提到了人工智能AI,语音跟语言是传统的人工智能领域,我们怎么样能够让计算机有视觉、听觉跟了解自然语言的方式,人工智能从60年到现在已经将近半个世纪,人当然是非常聪明的,我们对人的了解到今天还不够,但是我们在人工智能上面的确还有很多的进展,比如说我们研究院的徐博士就在研究院的时候设计出深蓝电脑,能够打败世界级的冠军。虽然今天我们还不能设计出一个电脑能够跟我们人有一样的智慧,但是在人工智能方面这几年还是有很多很不错的进展,这几年在应用上,特别是互联网的搜索上都用得很广,当然了还不能达到跟人脑一样,今天我们的演讲者也说了,我们在这方面还会在计算机界、计算机软件界会花很多功夫。这条路还是非常漫长的,能够做出一个东西跟人脑一样,但是历史也证明了,在这个过程中会有很多很多不同的应用,即使没有达到跟人脑一样的功能,会给人类造成很大的贡献。

  主持人:这个目标要实现,软件和硬件的发展要起到多大的作用?

  洪小文:软件就是我刚刚说,硬件一直是不可或缺,甚至说是大家没有看到的功劳者,但是它的功劳也不下于软件。因为我们知道摩尔定律,晶片在每18个月能够翻一倍,在所有的电晶体的数目上,这也推广上现在的存储也是一样的情形。因为做这样一些计算都需要海量的资料,速度不够快,可能要花上几百年时间才能实现,这在以前几乎是不可能的,今天因为有这么快速的硬件,让我们很多都变成是有可能的,这就是硬件最大的作用。我今天可以很负责任地说,软件今天在发展,虽然人类有很好的算法、很好的想法,但是没有很快的机器去运算的话,可能求你一生都看不到实验的结果,更不要说进展了,所以硬件相对来讲也是软件能够进步的最大一个动力。

  主持人:关于搜索方面的问题,因为我对第三代搜索技术不是特别了解,您怎么定义第三代搜索技术。现在微软在第三代搜索技术方面有哪些比较先进的技术?

  洪小文:第三代搜索技术有我们前瞻性的想法,真正还在进行当中。我可以告诉你几个方向,现在还不是很广泛地被发展出来,我们才会称为第三代搜索技术。你可能知道第一代、第二代,第一代在相关性上面得到很大的提升,但是搜索并不是要找相关性的东西,我们搜索是要找准确的资料,比如说有一个人要查抽烟,第一点就是个性化,有的人想要买烟,有的人想找吸烟对人有什么缺点,你可以找出一堆跟它相关性的文件,但是我可以针对你这个人,假如我知道你这个人从来不吸烟,但是跟吸烟相关的东西对我而言一点用都没用,不仅没有用,还造成我要花很多时间去找我要找的东西。个性化还有另外一点,现在大家搜索去一个网站,比如MSN、Google,我们做很多事情,有时候在Windows里做,有时候在Office里做事情,怎么样能够把我们所做的自然工作跟常用的结合,跟PC结合,跟Office结合,这是个性化的结合。第二个我们要更精确,刚刚讲到的一点也是很重要的,这跟人工智能和自然语言有很大的相关性,比如说有时候我想知道历史上的一个重要人物,比如毛主席是哪一年去世的,我们就打毛主席哪一年去世,你可能会找出一些毛主席在重要年份做的事情,但是不是真正的答案,怎么样能够利用自然语言的方法把这个做得更精确。另外一个跟人工智能有关的精确,比如说我现在要找某一个餐厅,杭州的

状元馆,你会找出跟状元馆有关的文件都在那里,有的讲是对它的评价,有的讲的是它的价钱,有的就是状元馆自己作为推广的一个网页,但是如果我想要找状元馆的信息的话,我很希望能够有一个网页,能够把它的地址列出来,地图怎么去,它卖的是什么样的菜,还有大家对它的评价,能够整理出让我看多,而不是十个二十个不同的网站让我找到这些信息,怎么样能够把这些系统组织成一个让大家一目了然的信息,这种准确性也是第三代需要的。这种东西我们把它叫做一些特殊用户常用的东西我们做一些更好的集成,能够把这些信息更准确地展现在人的面前。另外一个方向是移动,中国已经是移动最大的市场,今天在移动上做搜索的还不够多,移动上面还有趣,移动上面必须要提供即地、即时,你要知道现在人所在的位置,通常移动应用在一小时之内得不到的信息可能就不需要了,比如说你想知道人民大会堂这个场地附近有些什么餐厅或者有些什么东西,一小时之后得到这些信息就没有用了,因为一小时之后我可能就离开这里了,所以即地、即时怎么跟搜索结合在一起。另外移动的平台也有它的挑战性,它的荧屏很小,不可能给他一千个一万个搜索结果,让他一个一个去找,你要更快地让他找到能所要搜索到的东西,所以移动跟搜索的结合也是第三代互联网的例子。从移动的角度来看,我们微软一定要把它做好,我们微软在怎么样把它做好的基础上做更好的研究,希望未来能够真正推出第三代的搜索引擎,帮助用户解决现在不能解决的问题。

  主持人:谢谢!(骆磊/图文)

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网