跳转到路径导航栏
跳转到正文内容

图文:北京大学俞士汶教授演讲

http://www.sina.com.cn  2009年08月18日 15:56  新浪科技
科技时代_图文:北京大学俞士汶教授演讲

图为:2009年百度技术创新大会,北京大学俞士汶教授演讲。(胡秀岩/摄 新浪网)

  新浪科技讯 2009年8月18日,2009年百度技术创新大会在北京中国大饭店召开,大会上百度邀请中国互联网技术专家和投资人士,以及互联网技术爱好者,共同探讨互联网技术和未来发展。新浪科技对此次会议进行全程直播报道。

  图为:2009年百度技术创新大会搜索技术趋势分论坛,北京大学俞士汶教授演讲。

  以下为实录:

  俞士汶:各位来宾,大家下午好!我今天发言的题目是隐喻与词义的计算研究,及其在搜索引擎当中的潜在应用。内容有这么几点,首先看一下搜索引擎的现在情况,这个今天上午和刚才的报告都讲了,讲了搜索引擎跟自然语言的处理的关系。下面隐喻计算研究,词义自动消歧,和词义研究是主题部分,然后提一下自然语言处理的关系,最后发表一点感想。

  现在大家都有一个习惯,有事情就百度一下。我自己也有收获,大夫给我注射灯盏花注射液,我不知道灯盏花注射液是什么,百度了一下,收到了立竿见影的效果。但是现在的搜索引擎也还不能尽如人意,譬如说有人问“鸡肋”是什么?给出了这样的答案,这样的老公不是鸡肋是什么。这样的回答似是而非,似非而是,叫人哭不得笑不得。

  那么我们现在的搜索对象就是网页上的文字,网页的文字都是书面语言,书面语言是承载信息、知识和文化的,我们要搜索的实际上是它的内容,并不是这个文字的本身。现在搜索引擎的关键技术就是把网页用索引表达出来,然后查询的时候就把查询的关键词组合起来,看家本领就是字符串匹配。当然,我们自然语言处理技术跟基础技术,譬如说汉语的切分,另外在一起出现的词的贡献,这样的也用到,但是主要的都是字符串的匹配。

  发展方向,今天上午的董事长跟刚才的几位技术主管都讲到了,就是要理解,要语义的理解,要行为理解,这样的话他就需要把内容进行索引,用户的意图进行理解。在这种情况下,我以为自然语言处理技术,特别是自然语言理解技术就有了用武之地。在这之前,当然也有不同的见解,比如有人认为自然语言技术在检索当中起不了多大的作用,投入很多,收效并不大。但是今天上午听了百度的几位先生的报告之后,倒增强了这方面的信心,感觉到处都看到他们对自然语言处理、理解这方面的技术加入和认识这个需求的增长。

  我给出一个需求,查找“唐代描写战乱中牵挂亲人的诗作”,比如我打这样的需求进去,我试了一下,没有给出答案,可是我自己脑子里很容易想到这样的一些诗句:“打起黄莺倪,莫叫枝上啼”等,我想大家都能想得起来,但是互联网还实现不了。

  要实现这些内容的索引,以及实现对用户意图的理解,需要计算机俱备理解自然语言的能力,这是非常困难的。主要的原因是自然语言表达的意义、内容跟自然语言表达的形式之间存在及其复杂的多对多的关系。譬如说“妻子”,可以说“妻子”,也可以说“夫人”,那诗里面啼时惊妾梦,妻也可以叫妾。这样的话,当我们应用的时候,在特定的环境下面,把复杂的多对多的关系,给确定下来,所以我们就要下很大的立起来消减自然语言的歧义。

  自然语言分析要做的工作很多,比如“这样的老公不是鸡肋是什么”。表示的是这样的老公是鸡肋,但是“这样的老公怎么能说是鸡肋呢?”这句话的表示实际上表示的是这样的老公不是鸡肋。比如蛐蛐不是蝈蝈,那么丁是丁卯是卯,又不对了,这都是自然语言要理解的东西,但是这些东西太复杂,但是目前我们要的是词义消歧,可能最有用。“老公是鸡肋”,跟“老公不是鸡肋”都是隐喻的表达方法,如果计算机有隐喻的能力的话,那么对搜索还是很有价值的,我们下面集中讲一下隐喻的计算研究。

  什么是隐喻?隐喻计算研究有哪些任务?用什么方法进行研究?举一个具体的实例,还有在搜索当中潜在的应用,以及这样做能不能做得到。

  隐喻在我们语言的各个层次上面都有,比如说“老公是鸡肋”就是隐喻。甚至我们讲的搜索引擎这个本来就是一个隐喻。因为引擎是发动机,汽车里面、飞机上面有,我们网络搜索怎么有引擎呢?这实际上是一个隐喻。隐喻在人类语言表达当中离不开,那么我们的搜索当中当然也离不开。搜索计算研究的任务主要是三个,一个是识别,一个是理解,一个是生成,生成我们暂时可能是Web2、Web3将来的工作。那么我们现在主要是搜索的话,那就是识别跟理解。因为知识的海洋,我们要知道他的隐喻,“老公是鸡肋”,要知道他是隐喻,这样对搜索就很有价值。

  那么方法无法是两种方法,因为自然语言处理只有两个“拳头”,一个是基于微机的方法,一个是统计的方法。微机的方法很好理解,比如“这个人是一个狮子”,我们不知道是什么意思,“这个人是一个狐狸”,也不知道是什么意思,“那是老公”,也不知道是什么意思。但是我们说“那个人像狮子一样勇猛”“狐狸真狡猾”,这种我们就知道了,说这个人是狮子说明他勇猛,说他是狐狸说他是狡猾,那么这样的话,通过大量的喻体,来隐喻了。

  另外统计的方法,提供大量的正面的例子,反面的例子,学习一个分类器,通过这个分类器来把这个区别开来。

  我们的博士生2006年完成了一个博士生论文,叫汉语隐喻短语的识别研究。主要是像把知识的海洋,文献的海洋,这种隐喻的表达,跟国家的海洋资源,海洋生物的考察,这种能够分开。

  下面我们讲一些计算的方法,这个今天就不讲了,题目大家可以参考。

  那么隐喻在搜索里有没有应用呢?用途就是提高查准率,提高查全率,我做了一个实验,现在讲“金融风暴”,“金融海啸”,这个就是隐喻了,“风暴”并不是台风,“海啸”也不是真的海啸,指的都是“金融危机”。那么你说“金融危机”的话,回答只有“金融危机”,或者金融跟危机是分开的,没有“金融风暴”跟“金融海啸”。相反的,你如果查“金融海啸”,或者是查“金融风暴”的话,给你反馈的网页也没有“金融危机”,这样就是说隐喻的跟非隐喻的,实际上是独立进行的,对查准率和查全率有影响,不能给用户提供完整的知识。像“炒鱿鱼”百度了一下,65%是隐喻研究,是解雇,35%是本意的用法,是菜的名字,这样35%对65%的话,查准率和查全率都有影响。

  那么这样的工作可不可做,另外翻译也是有问题的,因为翻译也是个发展方向,你必须能够正确的翻译,你如果把“鸡肋”就翻成“A chicken is rib”的话,外国人是不懂的话,所以翻译工具是机器跨语言检索的工具,又是实现正确翻译的前提,所以跨语言检索对隐喻深入的研究和理解都是很有意义的。

  那么有没有可能做呢?真正用隐喻的名词的话,大概也就有700多个,另外用户查询的话,隐喻区别不开,可以用交互式的方式。那么下面讲一下词义自动消歧研究,这个由来以久了,有机械翻译就有研究工作,道路很漫长,很曲折,这句话我讲的又是有隐喻。词义研究道路漫长、曲折,实际上并不是在走路。辞典中的有一些词,已经加了比喻用法的意思了,这种方法下,隐喻也可以转化为词义消歧的问题。目前搜索引擎也是采用了简单的办法区分歧义,最简单的一个是采用共性的词语,比如“她的仪表很端庄”,返回的网页是很精准的,如果是“端庄”就是指的人的行为,在公司里面、职场里面表现的网页,还挺不错的。但是你如果用“抄袭”这词去查一查的话,抄袭行为很严重是很悲惨的事情,但是这次查“抄袭”,“抄袭后路”,“抄袭战术实例”实际上都是战术上的抄袭,结果返回来的网页都是抄袭行为的,最常用的他就给你提出来,新的最热门的最热的是抄袭行为的,所以你想查“抄袭战术实例”就查不到了。

  那么这就是刚才讲的词义自动消歧如果做的好的话,对网页是有帮助的,不过是有困难的。当然了,再难也要研究,所以今年我的一个博士生毕业,他做的题目就是词义消歧关键技术研究,今年拿了博士学位。这篇论文主要的贡献是两点,第一个是环节数据稀疏,数据稀疏是非常严重的,第二个是统计语言学和统计模型结合起来。

  下面我们讲一下词义消歧研究。词义消歧指的是辞典里面已经有几个词了,然后你在文本中决定它是哪一个词。但是现在的词义发展很快,辞典来不及反应现在一个词多义的情况,比如说“苹果”,要么是果实,要么是网站,但是现在有电脑了。自动区分这个研究主要是不以来辞典,就根据词语进行上下文的搭配,句法、语义的特征,采用无指导的机器的方法,区分意思,就可以把有关的网页区分成是植物的苹果,还是电脑的苹果,还是媒体的苹果,这样给搜索就会提供有用的价值。同样我的博士生做了一个论文,叫做《汉语的自动词义区别研究》,直接面向用义的基础研究。

  自然语言处理的话,必须有语言知识库的支持,语言知识库就是自然语言处理系统不可缺少的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言系统的成败。北大开发的综合性的语言知识库,其中中英文概念辞典可能对搜索最有用,主要是像中文英文病毒-“virus”,有两个意思,我们组成一个字典里面,并且能够反应同一个词的结合,反义的结合,这个对破戒都有很大的帮助。

  由于时间的关系,我只能快速的讲一下。应用研究是基础研究的源泉,基础研究要面向搜索的应用提出来的各种各样的问题,像今天谈到的几个问题都是自然语言需要处理和分析的问题。但是现在自然语言处理做的还是不够的,做到完全理解还是相当困难的。但是有一些技术是用上的,比如原有的认为自然语言处理没用,切分在早期的时候做全文检索的时候,就认为两个字阶段,所以是最快最好的。但是后来现在的网上的话,大概都有区分了,没有再用两个字直接做索引了。

  当然有一些技巧还是很有关系的,比如问电脑的价格如何,如果你上海龙大厦问这个问题的话,那一定是电脑。而现在的网页搜索引擎就知道你这个IP准确的位置,这个我也理解,你自然理解要有语境,要有上下文环境,这个环境不仅仅是文字的上下文,是你生活的环境,你所在的空间、时间都有关系。所以我觉得今天有机会跟大家交流,感谢百度公司给我提供这样的机会,十分荣幸,另外感谢在座的各位耐心听讲,欢迎大家到北京大学有关研究的小组,研究所,重点实验室去访问,谢谢大家。

网友评论

登录名: 密码:
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2009 SINA Corporation, All Rights Reserved

新浪公司 版权所有