跳转到路径导航栏
跳转到正文内容

图文:腾讯搜索技术研发中心总经理孙良

http://www.sina.com.cn  2009年10月22日 14:40  新浪科技
科技时代_图文:腾讯搜索技术研发中心总经理孙良

腾讯搜索技术研发中心总经理孙良

  2009年SD2.0大会于10月22日在北京温都水城举行。大会邀请了众多海外软件大师及数十位来自国内外的一线讲师分享最新的技术与实战经验。

  图为:腾讯搜索技术研发中心总经理孙良。

  以下为演讲全文:

  主持人:下一位演讲者是腾讯搜索技术研发中心总经理孙良,演讲主题是情境搜索—搜索引擎未来之路。

  孙良:各位业界的朋友大家好,很有幸跟大家交流一下技术,我是做搜索出身的人,讲的东西肯定是本行,搜索。要推出我们业务重点的话,我还是讲搜索。

  先讲一下互联网发展的大环境,因为它直接影响到我们搜索引擎厂商的应用场景变化,首先看整个变迁,从Web1.0开始,当时信息发布是基于网站编辑人工发布,当时用了比较昂贵的网站发布系统,信息源主要是门户网站和数据库的应用,包括文件系统。信息获取刚开始是导航的方式浏览,更多的是访问一些文件的服务器等等,查询也是关健词查询,当时比较有代表的搜索引擎是雅虎。到了Web2.0,大家比较熟悉这个概念了,Web2.0主要的想法是希望普通的互联网网民参与整个互联网建设,包括内容建设,信息发布种类更多。信息源更突出的是互动的平台,讲究社区化网络的发展,信息获取可能从被动的接收信息变成有了一些信息推送,引入概念搜索的技术,也用到了群体智慧,包括信息分享。

  我们觉得Web3.0是未来发展的趋势,信息发布可能门槛更低,信息来源可能集成了很多方式。信息获取方式可能更多的是基于场景的应用,搜索领域更强调情景知识的应用,包括语义搜索,个性化搜索,互动性搜索,分享类搜索,分享类搜索包括百度百科等产品。而且向整合方向发展,早期可能搜索引擎只是网页搜索,但很多用户搜索过程中需要有一些需求,从用户检索串联中可以看出很多概率分布,可能就会陆续产生很多垂直搜索。现在大家又想进行整合,整合肯定是做一些比较智能的整合,通过用户检索输入的分类做整合,目标还是希望能给用户提供更好的搜索体验。

  另外一块,现在有很多游戏,或者早期的虚拟技术已经用到了互联网,使大家在互联网上进行一系列的类似虚拟人生的生活体验,这可能也是未来的一种生活需求。先谈一下传统搜索引擎的特点,大家用的比较早的可能是雅虎,雅虎早期只是基于目录分类系统加上权威检索,搜索就是搜索,没有考虑搜索的环境,当时只能看到目前检索串很少想背后用户隐含的搜索意图。在索引的时候更多的是当前处理的文档,属性考虑的比较少。另外用户分析这个问题,很多搜索引擎当时都对用户的反馈行为考虑相当少,包括查询的事务的序列信息。第三点比较少的引入关系。

  大家知道整个互联网其实是通过各种各样的关系联系在一起的,现在有很多互动社区强化互联网用户的关系,这对做好搜索引擎是一个背景信息。当时这块比较弱,没有一个很好的群体智能的引入,查询关系比较简单。我最近研究了一下现有的搜索厂商,我发现这些不是特别完美。因此我们觉得简单的从搜索框,输入一个检索串去考虑用户的搜索意图,去更好的理解用户还是不够的。我们需要有一个情景搜索,我们这边总结了七个要素,六个w一个h。首先分析做一次搜索用户的属性,比用户的个人画像,可能处于什么样的信息群,大家知道腾讯有群的概念,有群空间、群聊天的概念,我们是否能在这里挖出用户感兴趣的喜好。这里提出一个理念,就是一切以用户价值为中心的。

  第二个w是WHY,为什么启动搜索。先看用户的企图,有些词搜索引擎检测了用户一系列的查询过程,用户可能做这个查询过程中修改了N多次检索,然后最终才能得到相对有价值的结果。为什么用户在常识N次之后最后为什么没有点击而离开,第三是WHERE,我们启动搜索的时候,用户的时间,还有在不同时间进行搜索需求有所不同。大家知道个性化已经谈烂了,但是最难解决的是长期兴趣、短期兴趣处理的难度,也许长期兴趣是经济,但短期我感兴趣的是足球,这是比较平衡的。确实需要考虑时效性和某些时刻内的需求的。

  另外这个时间纬度还要对搜索引擎的加工的对象来讲,就是文档,就是互联网网页,这个网页肯定有时间属性在里面,有一些网页时效性特别强,包括现在的一些博客更新周期很短,可能是秒级的。还有一些突发性新闻事件,需要搜索引擎及时快速的反映。所以时间因素是很重要的准则,另外我们谈到用户所处的环境、区域,当用户在搜索引擎搜索一些生活类相关的信息,我们要尽可能考虑他想获得的信息是有地域性的。文档也有类似的概念,文档所处的地点,这样我们希望有地点敏感的方式获取一些用户感兴趣的信息。

  再有是WHAT,比如用户输入了什么,可能是比较直白的表达,而我们希望用户背后需要得到什么信息。首先我们要了解用户的查询意图,用户真正想要什么,而且我们需要挖掘用户查询意图的历史背景,包括他隶属于哪个群体,查询中我们也可以看到和用户相关的信息,还有另外一些跟搜索没有关系的用户冲浪行为。这里综合了很多这样的因素,我们针对查询会做很多的重构。比如一些技术,每个纬度现在都有一些产品展现。这里还谈到一个how是怎样启动搜索过程,比如让用户定制搜索结果,这种方式需要考虑用户对整个搜索有更多的干预和参与的权利。

  情绪搜索首先要有一个浏览场景,跟用户所处的环境是有关系的,比如看苹果相关的网页,然后记录用户,比如在腾讯的很多业务,比如聊天、写博客的时候,可能会跟其他的用户进行互动交流,可以发现一些蛛丝马迹。另外是群信息,腾讯有很强大的群功能,很多信息相同的用户会在群里发表自己的想法或者互相推荐一些与自己领域相关的一些有趣内容,包括博客文章、科技类的文章。还包括用户自己写的博客,用户写自己博客的时候会更多融入一些自己的感情色彩,那一时刻的情绪在里面,那时候他了解到的知识背景。最后一点比较直接,在做搜索引擎启动的时候,会有一系列的查询的事物,我们可以知道用户对本次搜索是否满意,在搜索过程中做了哪些修改,对搜索评价怎样。

  看看情景搜索会作用到哪些环节,比如数据获取,获取到的索引源数据进行解析,之后进行索引。还有查询串,作用到查询本身,还有进行查询改写,这是很重要的过程,搜索引擎有时候无法理解第一次用户输入的检索是否是真正想表达的,我们会根据用户搜索历史来知道这个搜索可能是需要被改写的。还有排序本身的过程,包括时间因素、用户的背景因素。当然也会作用到我们用户检索的博客里。用户原来输入的检索串,包括他对结果的反馈都属于用户的情景信息。

  现在很多网站跟搜索引擎建立联盟,获取的时候更多考虑时效性和覆盖性。新闻互联网网页越来越大了,那真正有索引价值的信息很少。一方面我们要从中获取吸收重要的信息,另外也希望能尽可能比较少的服务器成本来支撑比较好的服务。另外一块是NRP技术引用,可以让我们有效的发现词与词之间的关系。我们也会发现做搜索引擎的时候,其实没有办法用统一的公式做好所有的用户的搜索类别,只有一个一个的类别做好才能得分提高。这样我们有必要做两种分类,一种是文本本身进行分类,另一种是对查询串进行分类。

  在有是数据索引,索引本身是一个比较机械的过程,但索引对象需要有强大的数据描述,其实搜索引擎有很大方面的考你有更好的特征,这样才能把不好的数据区分出来。另外也可以体现,我们刚才讲到关系的挖掘,有时候静态的看一个文本或者检索的话是不够的,往往要发现文本与文本之间和背后人的关系。

  我们在用户查询的过程中,去挖掘一些词的关系,比如有些词字面上没有关系,或者有些是包含关系,这种情况下往往他们之间是有一定的关系的。而且也可以从中了解用户的查询意图,可能我们要做一些增删,从哪个地方入手。用户情景信息已经谈到,一个是用户浏览信息挖掘、用户博客信息挖掘、基于用户日志挖掘获取用户信息,这些有一些协同信息推动的价值。另外我们也有自己的互动问答平台,包括我们的问问产品,它是典型的Web2.0应用,用户把重要信息分享给其他用户,解决知识性查询的用户需求。

  所以情景搜索不是简单的个性化搜索,涵盖的内容比较丰富一些,比如说我们会在一些产品里做一些用户查询意图的直达表现。包括搜索个性化,我们用一些传统个性化引擎的技术,更多的是要考虑结合应用场景去做个性化。智能化涵盖的领域更多,一方面是各种不同媒体的垂直搜索需要进一步的结果的整合。另一方面我们充分理解文档本身包含多少种主题、语义。另外我们需要一些针对群用户的搜索,包括用户群里产生的有价值的信息。另外我们也需要给用户有一个结果修改搜索的结果,包括搜索的模式。另外有些用户有订阅要求,比如最近对某一个上市公司的信息感兴趣,那我就去订阅这个上市公司的新闻,主动推送到我的邮箱里。

  情景搜索其实想解决的问题是逐步深入的了解用户的搜索意图,其实我们可以看出,整个搜索过程中,我们是会分三个层次,一个层次是,比如用户检索杀毒软件的时候,如果没有背景信息,我们应该反馈给一些杀毒软件的使用说明、下载等等。

  如果说我们能够分析出用户的机器里种了什么毒,并且找到杀死这些毒的软件,甚至启动这些杀动软件的话,就会更进一步满足用户需求。同样苹果这个例子也是,用户查询苹果有各种意图,有可能查询苹果这个水果,也有可能查询苹果这个终端,不同用户环境是不一样的。

  最后谈一下我们做的努力。首先是腾讯的战略,我们会有一个比较完善的在线生活平台,提供了互联网应用,从游戏到博客,到信息交流、分享,包括到搜索。情景搜索这里有一个应用叫做搜索华尔兹,用来挖掘用户的关系链,现在的产品体验主要是针对明星来做,可以体现出同一个人物与其他人物的关系,通过一些词表达,可能以某一种事件关联在一起,这种关系也可能有时效性。

  十一到了大家可能想旅游,这时候很多用户会搜索打折机票,比如去云南玩儿,这是用户需求,这时候我们可以给他一个实际的Case。搜索引擎已经成为一种工具,可以提供实时的贴心的为用户量身定植的产品。如果有一个搜索的订阅,这样可以定制提醒。有这样的平台才能使情景搜索成为可能,包括信息整理成QQ、短信、个人中心等。这样用户想完成一个旅行的话,服务得到了非常好的体贴。最后我也跟在座的朋友,希望大家有机会加盟我们搜搜,做最强的搜索引擎,我希望跟大家多做交流,也是希望借助腾讯这个平台开发出更贴近用户信息需求的产品,更好的给我们中国互联网用户提供一站式的产品体验。谢谢大家。

网友评论

登录名: 密码: 快速注册新用户
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2009 SINA Corporation, All Rights Reserved

新浪公司 版权所有