跳转到路径导航栏
跳转到正文内容

连线杂志:谷歌算法统治互联网的秘诀

http://www.sina.com.cn  2010年02月25日 17:44  新浪科技
科技时代_连线杂志:谷歌算法统治互联网的秘诀

谷歌如何搜索浩如烟海的信息?

  导语:美国《连线》杂志网站日前发表编辑史蒂文·列维(Steven Levy)的文章,揭开了谷歌搜索算法的神秘面纱。

  以下是文章全文:

  搜索改变生活

  想知道谷歌将如何改变你的生活吗?那么周四去“瓦加杜古”会议室看一看吧。在加利福尼亚山景城的这个会议室里,几十名工程师、产品经理和高管聚集一堂,讨论如何令谷歌的搜索引擎更加智能。今年,谷歌将对其传说中的搜索引擎算法进行了大约500项改进,而且每一项改进都要通过这样的会议决定。

  每周一次的“搜索质量大会”,都将可能影响谷歌搜索的结果——“三星SF-755p打印机”、“MySpace布局代码”,甚至是“布基纳法索 首都”,该国首都恰巧与谷歌此会议室名字相同。自2006年以来,一直担任谷歌搜索主管的乌迪·曼博(Udi Manber)任会议的负责人。会议将一一提出可实施的改进,同时还会讨论数月来在不同国家、不同语言环境中的测试结果。屏幕上分两列显示,更改前后同一查询返回的结果。在讨论“吉他 人声模拟”的查询结果时,曼博叫道:“这个我搜过”。

  你可能会想,谷歌已经主导搜索引擎市场长达十年之久,应该可以高枕无忧了。毕竟谷歌在搜索引擎市场上的份额高达65%,甚至谷歌一词已经成为搜索的代名词。就像谷歌不愿在桂冠面前止步一样,其竞争对手也不愿轻易认输。多年来,谷歌一直在用其神秘、看起来无所不知的算法来“组织世界信息”。但最近五年来,很多公司开始对谷歌的一重要观点发起挑战。

  谷歌认为,一个单一的搜索引擎,通过技术创新和不断改进,可以满足任何搜索要求。而Facebook较早对此发起了挑战,认为一些人更愿意通过朋友获得信息,而不是一个没有名字的算法公式。Twitter能对不断更新的消息进行时时分析,这就使“实时搜索”成为现实——挖掘正在进行的讨论或闲谈。

  购物比较网站Yelp通过大众对商家的等级评定,帮助人们寻找饭店、干洗店和保姆等相关信息。虽然这些后起之秀无法单独对谷歌造成威胁,但它们共同预示着搜索行业的一种开放、混沌的未来——并不是被一个搜索引擎所主导,而是包含着丰富多样的服务。

  来自必应的挑战

  然而,谷歌最大的威胁是微软的必应(Bing)。必应使人联想到探索、美国传奇歌手Bing Crosby、和《黑道家族》中的Bada Bing夜店,这款重新修整、被赋予新品牌的搜索引擎在去年6月推出时便赢得了乐观的评价。《华尔街日报》称其“比谷歌更有吸引力”。新的面貌和1亿美元的广告战使微软在美国搜索市场中的份额从8%跃升至11%——如果监管部门批准必应成为雅虎的搜索服务商,这一份额将增加一倍以上。

  必应团队一直专注于谷歌算法无法满足的需求。比如,谷歌擅长搜索公共网络,但却无法实时跟踪不断变化的航班时刻表和机票价格。因此微软收购了Farecast网站,该网站追踪机票价格的变化,并据以预测票价的涨跌。目前,微软已把Farecast的技术应用加入到必应的搜索结果之中。微软在其认为谷歌算法没有优势的领域,例如健康、购物领域,也进行了类似的收购。

  即使必应团队承认,在根据搜索词返回有用信息方面,谷歌还遥遥领先。但他们仍认为,如果必应可以提供一些擅长的领域,用户会逐渐习惯使用必应来进行特定的搜索。微软核心搜索部门副总裁布莱恩·麦克唐纳(Brian MacDonald)表示:“算法对于搜索引擎来说至关重要,但它并不是一切,就像你买车并非只因为它的引擎。”

  谷歌仍是最“智能”的搜索引擎

  一个有趣的例子“mike siwek lawyer mi”表明了谷歌相对于必应的优势。

  阿米特·辛格(Amit Singhal)是谷歌的首席工程师,40多岁,性格温和,他曾因在2001年重写了谷歌搜索引擎而获得殊荣。他将这些单词输入谷歌搜索框,并敲击了回车键。在极短的时间内,搜索结果便显示出来。最上面的链接指向的网页给出了密歇根州大急流城一位名叫Michael Siwek的律师。

  这是一个很普通的搜索,谷歌每天要处理成千上万的这种搜索。但事实上这一搜索过程十分复杂,可能使一些搜索引擎误解。如果把这些单词输入到必应,第一个结果是美国国家橄榄球联盟的历年球员名单,其中有一个名叫Lawyer Milloy。搜索结果中的下面几页,也没有与律师Siwek相关的内容。

  这一对比显示出谷歌算法的强大,甚至可以说是智能,而这是通过反复的修正实现的。看起来谷歌拥有解读用户需求的神奇力量——不论是多么生僻的搜索,或是有拼写错误。谷歌将这种能力称为搜索质量,并且多年来一直竭力完善算法,以产生精确的搜索结果。

  现在我就与辛格一起坐在谷歌的43号办公大楼里,因为谷歌给与了我一个前所未有的机会——让我了解他们是如何保证搜索质量的。背后的意涵很明确:你可能认为算法只是一个引擎,但在揭开其神秘面纱之后你才会发现它是多么的无所不能。

  创新的开始:PageRank

  谷歌算法始于PageRank,这是1997年拉里·佩奇(Larry Page)在斯坦福大学读研究生时开发的。佩奇的创新性想法是:基于入链接的数量和重要性对网页进行评级,也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎,佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。

  但这并不是故事的全部。曼博表示:“人们信赖PageRank是因为它是可以进行确认的,但要提供最有用的结果还需要其他技术。”这涉及对某些信号、上下文的利用,这样对于任何查询,搜索引擎都能将最有用的结果排在最前面。

  网络搜索是一个多方过程。首先,谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。

  此时,上下文便有了用武之地。所有搜索引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

  一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超链接中的可见文本。因此,“当你进行搜索时,搜索引擎总能给出正确的页面,即使该页面中没有你找的关键词。”这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜索引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

  谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示,谷歌工程师还利用了另一种民主——成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的“个性化搜索”——这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的复杂意图。

上一页 1 2 下一页

网友评论

登录名: 密码: 快速注册新用户
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2010 SINA Corporation, All Rights Reserved

新浪公司 版权所有