科技时代新浪首页 > 科技时代 > 业界 > 正文

微软的第一个搜索技术掌门


http://www.sina.com.cn 2006年01月09日 11:58 中国计算机报

  杰逊

  一个语音技术专家,何以摇身一变成为微软的第一个搜索技术掌门?洪小文会把微软搜索引往何方?

  就在人们纷纷揣测去年新上任的微软CTO雷·奥兹,会给过完30岁生日的微软带来何
种变化时,一个名叫洪小文的语音技术专家,正在试图改变微软在互联网搜索领域的筹码。

  “搜索以后将变成互联网的制高点,控制了搜索基本上就可以控制很多的商业模式。”微软亚洲研究院院长沈向洋说。两个多月以前,微软亚洲研究院在中国建立了微软在全球的首个互联网搜索研究中心,出现在此中心负责人位置上的,正是微软亚洲研究院副院长洪小文。

  一个语音技术专家,何以摇身一变成为微软的第一个搜索技术掌门?他会把微软搜索引往何方?

  背离了主流

  洪小文出生于我国台湾省,在中学的时候,他就曾代表中国台湾与同伴一起参加了国际数学奥林匹克大赛。中学毕业后,他顺利考入台湾大学电机系,并于1985年获得电子工程学士学位。

  同年洪小文进入了美国卡内基梅隆大学,师从图灵奖获得者罗杰·瑞迪教授。由于志趣相投、观点接近,他和一位同学很快走到了一起,并在经过深入思考后,两个学生决定用“自己的方法”做语音技术。所谓“自己的方法”,就是他与导师罗杰·瑞迪以及大多数语音技术同行观点不同的“新思维”。

  “当时,罗杰不认同我们的研究思路,但是‘不认同’不等于‘不支持’。”洪小文接受采访时说。卡内基梅隆大学允许异见、不盲从“权威”的学术氛围,显然让洪小文受益匪浅。罗杰·瑞迪教授的“宽容”,最终被证明是明智的。尽管两位学生的研究方向背离了主流,但是其研究成果却轰动了国际学术界,并且被后来者认定为未来的方向,从而成为他们从事语音技术研发时所遵循的“新主流”。

  与传统的“专家系统”研究方法不同,洪小文与同学所开发的语音识别技术,完全是基于“统计和机器学习”的思路。两人把新的语音识别系统命名为“斯芬克斯(Sphinx)”。时至今日,

苹果、微软等公司的语音技术研究,仍然以斯芬克斯为基础。

  苹果的诱惑

  获得卡内基梅隆大学博士学位后,洪小文加入了当时的大热门苹果电脑公司。期间,卡内基梅隆大学的另一位教授,里克·雷斯特(现为微软公司主管研发的高级副总裁),正在着手组建微软研究院,并向洪小文伸出了橄榄枝。

  “我当时不清楚微软对语音技术的期望以及重视程度,对微软这个公司的了解也比较少。所以我错过了很早之前就加入微软研究院的机会。”洪小文说,1992年苹果电脑公司宣布研发新一代个人电脑,并进军消费电子市场,同时还推出了Newton掌上电脑的原型机,发展势头被业内人士普遍看好。

  但是,洪小文很快就发现,苹果产品固然优秀,但是在市场上的表现却相对平庸。而且,由于对创新的极度追求,使得该公司似乎陷入了一种“迎合小众”、孤芳自赏的歧途。在当时,不少人对苹果电脑公司的前景表示怀疑。但是,洪小文依然接受了苹果电脑公司的任命,到新加坡组建了一个有25人的研究院,专门针对中国乃至亚洲用户展开语音及手写技术的研究。

  结果让人们大感意外,洪小文领导的研究小组成功地开发出了新一代中文语音输入系统,并在1995年亚洲Comdex/ACW上荣获了“最佳软件奖”和“全场最佳奖”。当时有媒体报道称:“该系统在北京与公众见面时引起极大轰动,有120人参加了启动仪式,出席者都是北京各主要报纸的高级编辑,以及从事电脑研究的科学家。最初他们对系统持怀疑态度,当他们看见系统将当天的

人民日报的任何一个段落快速地输入电脑时,他们开始对系统产生了兴趣……”

  微软的橄榄枝

  1993年,一位名叫黄学东的语音技术专家加入了微软公司的研发阵营,负责微软的语音研究。眼见苹果在语音识别技术领域声势逼人,黄学东想到了挖角,洪小文理所当然地成为了重点对象。

  但是,洪小文几乎不假思索地拒绝了。原因很简单,他当时正负责苹果电脑公司的几个重要计划。尽管苹果电脑公司已开始走下坡路,而微软正在扮演后来居上的角色,但是洪小文认为,他在苹果“做得很好”,没必要更换平台。

  黄学东的执着在两年后终于得到了回报。1995年9月,从亚洲Comdex/ACW大展上载誉归来的洪小文,一方面自觉对苹果电脑公司有了交代,另一方面也为黄学东的诚意所打动。洪小文在微软得到了特别的关照,他马上被任命为高级研究员。据称,多数研究人员需要持续专注地工作十几年,才有可能升至这一职位。洪小文当时在微软创造了一项记录,那就是在获得博士学位后仅三年,就跻身高级研究员行列。

  从1995年至2005年,洪小文自称在微软经历了三个阶段的角色转变,首先在雷德蒙微软研究院从事语音技术的基础研究,随后在微软的语音产品部门担任Speech.net的首席架构师,现在则在北京继续做研究、担任导师,并协助微软亚洲研究院院长制定战略并管理研发团队。在此期间,他还在知名学术刊物与会议上发表了多篇论文,主导了若干语音技术标准的制定,并出版了一部长达上千页的计算机语音学专著《Spoken Language Processing》。这部著作正在被世界各地的知名高校,以及全球范围内的语音学研究者作为权威的教科书来使用。1998年,洪小文还参与了微软中国研究院(微软亚洲研究院的前身)的创建工作。

  双重身份

  既负责过基础研究,又管理过产品开发的洪小文,称自己的这种“双重身份”,或许可以帮助国内的年轻学者把握到正确的方向。“研究院着重于解‘难题’,产品开发部门则每天都要要面对‘真问题’。”洪小文说,由于研究院距离产品部门和最终用户比较远,所以难免在某些时候容易“误将虚拟当真实”,在一些没有应用价值的项目上浪费资源。

  2005年10月,微软亚洲研究院正式成立了互联网搜索技术中心。据其院长沈向洋介绍,设立互联网搜索技术中心属微软亚洲研究院首创,美国微软雷德蒙总部研究院、英国微软剑桥研究院都未设立互联网搜索技术中心。

  “互联网搜索技术中心将致力于把数据挖掘、机器学习、知识发现技术和信息分析、组织、检索与可视化的过程相结合,将目前的互联网搜索提升到一个更高的层次,同时加快技术产品化的进程,以使层出不穷的研究成果能够在第一时间为中国乃至全球的MSN Search用户所采用。”洪小文说。此前,在巴西萨尔瓦多举行的第28届国际信息检索年会(ACM SIGGIR)上,洪小文所负责的相关课题组共发表了12篇高质量论文,数量占年会获选论文总量的15%以上,使微软亚洲研究院再度蝉联论文获选量的冠军。

  在说到语音识别技术与搜索技术的联系时,洪小文说,语音识别技术包括三个层面,即识别、理解以及知识搜索。也就是说,语音识别技术与搜索紧密相连。“我有不少朋友现在做搜索,他们以前都是做语音出身,因为语音用的是统计和机器学习的方法,这种方法在核心的搜索技术中正在扮演着重要的角色。”洪小文说。

  链接一

  洪小文眼中的下一代互联网搜索

  第一:将把分布更广泛的海量信息资源纳入搜索体系中。互联网搜索技术中心正在开发一个新的互联网搜索平台,该平台将具备空前巨大的规模,并能够有效地存储、解析、索引和检索数十亿网页及各种类型的数据。

  第二,应用新的搜索工具,可以找出任意的人与人、事物与事物、人与事物之间的关联,以及使他们产生关联的那些因素。

  第三,对以往的搜索引擎来说,不论关键字在网页的任何位置,其重要性都是相同的。新的搜索引擎则会根据关键字所在的“网块位置”,自动调整网页的重要性与呈现的优先级。新技术可以在网页中自动进行深层挖掘,发现网页结构并抽取出有价值的对象。

  第四,新技术可以让搜索工具智能辨识网页与网页的相似度,从而将区别较大的信息内容网页优先呈现,还可通过分析信息的“相关性”来理清网站的架构关系,并在此基础上对网页的重要性与敏感度进行评估,有效提升网络搜索的精度、优化查询结果的优先级。

  链接二

  洪小文对研究的定义

  第一级:想到别人还没有想到的问题,这是最高深的研究,如歌德巴赫猜想。

  第二级:解出别人还没有解决的问题。

  第三级:用更好的方法解出已经解决的问题。

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

版权所有 新浪网