跳转到路径导航栏
跳转到正文内容

美博客揭秘网络流量背后玄机:大量数据存在纰漏

http://www.sina.com.cn  2010年03月22日 13:35  新浪科技

  导读:美国搜索引擎技术网站SearchEngineLand主编丹尼•苏利文(Danny Sullivan)上周五撰文称,Hitwise等互联网流量监测机构的许多搜索数据都存在根本性的错误。他还以谷歌、Facebook和Twitter的相关统计数据为例进行了分析。

  以下为文章全文:

  Hitwise上周发布的报告显示,Facebook为新闻网站输送的流量超过了谷歌和Twitter。在对此进行了更进一步的研究后,我得出了不同的结论。在此过程中,我还发现,整个互联网流量统计行业都需要进一步加强数据挖掘。

  Hitwise在博客中表示,Twitter此前一周约占“新闻和媒体”网站“上行”(upstream)访问量的0.14%,远低于Facebook和谷歌。以下就是Hitwise博客文章中有关这三大网站的关键数据:

  - Facebook,占比3.64%,排名第3;

  - 谷歌资讯(Google News)占比1.27%,排名第11;

  - Twitter占比0.14%,排名第39;

  谷歌资讯与谷歌

  我第一个问题是有关谷歌资讯与Facebook的对比。谷歌资讯只是谷歌的很小一部分,这种对比似乎有失公平。除非Facebok也有一个新闻版块,否则在对流量进行统计时,应当将Facebook与整个谷歌网站进行对比。

  根据目前的数据,整个谷歌为新闻和媒体网站所贡献的流量远超Facebook,雅虎和MSN也是如此。如果将来自谷歌、雅虎、MSN和Facebook各自域名下的所有网站进行汇总,便会得出如下数据:

  谷歌网站:20.16%

  雅虎网站:18.92%

  MSN网站:8.76%

  Facebook:3.64%

  Hitwise对新闻和媒体网站排名前100位的流量来源进行了统计,而上述数据则是对谷歌、雅虎以及MSN旗下的各大网站进行汇总后的数据。这三个数据分别被Hitwise冠以“谷歌资产”、“雅虎资产”和“MSN资产”的名称,但Facebook并未采用这种命名方式。但据我所知,Facebook的所有项目都在Facebook.com的域名下运营,因此我认为Facebook的数据也代表了整个Facebook资产。但目前还不清楚MSN的数据是否包含了必应(Bing)等微软资产。

  Hitwise还根据每家公司的主要域名给出了另外一组数据:

  Google.com,占比16.50%,排名第1;

  Yahoo.com,占比9.40%,排名第2;

  Facebook.com,占比3.64%,排名第3。

  谷歌资讯不是谷歌阅读器

  如果较早前的数据让你认为Facebook是一款足以与谷歌对抗的杀手级新闻应用,那么Hitwise今天发表的另外一篇文章则对此进行了更多讨论。这篇文章表示,Facebook用户比谷歌资讯的用户对新闻网站的忠诚度更高。以下为文章要点:

  - 在截至3月6日的一周内,78%的Facebook用户成为排名前5的印刷媒体网站的“回头客”,谷歌资讯的这一比例仅为67%;

  - 77%的Facebook用户成为排名前5的广播媒体网站的“回头客”,谷歌的这一比例仅为64%。

  这篇文章题为《Facebook访客一再回访》(Facebook Visitors Come Back Again And Again),这一题目正是对该文作者海泽•霍普金斯(Heather Hopkins)几周前的一个观点的呼应。她当时曾经撰文指出,Facebook有望成为互联网上最大的feed阅读器(尽管Facebook被当做feed阅读器使用时非常困难)。有人认为这将成为Facebook的一大优势,可以为新闻网站带来大量的忠实用户。

  的确,Facebook的用户忠诚度很高。但Hitwise这一次又犯了同样的错误,不应该将Facebook与谷歌资讯进行对比。在Facebook中,用户可以成为新闻机构的粉丝,并订阅来自该机构的内容更新。这些机制都能够吸引用户持续关注新闻机构。谷歌资讯则拥有2万个来源,但用户无法订阅其中的任何一个。如果你希望通过谷歌订阅新闻,则应当使用谷歌阅读器(Google Reader)。那么谷歌阅读器的用户忠诚度又如何呢?

  Hitwise并未提供相关数据。这很有可能是因为霍普金斯上次将Facebook列为feed阅读器时,谷歌阅读器对新闻和媒体网站的流量贡献太小(0.1%)所致。谷歌资讯所输送的流量更多,因此便成为了Facebook的比较对象。但在我看来,这是一个错误的选择。

  霍普金斯也在今天的文章中给出了谷歌的整体忠诚度情况,她写道:“部分读者希望我将Google.com包含在这个系列的文章中。在多数情况下,Google.com都是这些网站的第一大流量来源。有趣的是,与谷歌资讯和Facebook相比,来自Goolge.com的用户成为‘回头客’的几率更低。”

  虽然并未给出具体数据,但这一结果并不出人意料。与谷歌资讯一样,Google.com的用户无法“订阅”特定网站。他们只是借助这一渠道来挖掘信息,这一过程完成后,他们没有必要再返回谷歌。

  回顾“搜索鸿沟”

  早在2001年时,我就将这种现象称为“搜索鸿沟”(search gap)。调查发现,搜索是网民最常进行的网络活动之一。然而,在对网站数据进行统计后便可以发现,搜索引擎通常都不是网站的首要流量来源。为什么网民的活动和搜索引擎所输送的流量之间会有如此之大的差距呢?这是因为,一旦用户找到了信任的网站(包括新闻网站),便不再需要反复搜索。我当时是这么写的:

  “比如你想购买一本书。你会通过自己喜欢的搜索引擎找到一个来自亚马逊的页面。于是,你访问了亚马逊网站,而且对所列的价格和信息都很满意,便购买了这本书。借助搜索引擎,亚马逊获得了一个用户。

  一个月后,你又想买另外一本书。由于上一次获得了优异的体验,你便直接访问了亚马逊,而并未使用搜索引擎来寻找这本书。因此,你的第二次访问并未通过搜索引擎展开。然而,如果不是上一次通过搜索引擎找到亚马逊并获得了不错的印象,你可能并没有发现亚马逊。

  因此,当用户找到了可供信赖的网站后,他们便会怀着特定的需求直接回访这个网站。然而,由于用户的需求非常广泛,因此便会不断搜索新的东西,这便导致了搜索引擎总体使用量的居高不下。

  因为存在这种搜索鸿沟而认定搜索引擎并不重要的看法是错误的。搜索引擎仍然是用户首次寻找网站的首要渠道,其重要性不容忽视。相反,搜索鸿沟证明了一个历经考验的观点:第一印象非常重要。当用户通过搜索引擎第一次访问一个网站时,如果能够获得良好的印象,他们今后便有可能直接回访该网站。”

  那么Facebook与谷歌的用户忠诚度究竟孰高孰低呢?这是一个很有趣的问题,但却未必具有可比性,毕竟用户在这两个网站中的行为方式有着根本的不同。

  Twitter不是Twitter.com

  在我看来,Hitwise的统计数据还存在者另外一个问题:将Twitter.com的数据作为Twitter的整体数据来衡量。我认为这是一个重大的错误,因为有很多的用户都通过站外渠道使用Twitter。很多用户借助第三方应用与Twitter进行互动,或者通过谷歌实时搜索结果以及发布在个人博客上的内容来浏览Twitter信息。

  如果忽略这些内容,便无法恰当地衡量Twitter生态系统所输送的流量,甚至很可能大幅低估了其影响力。我此前也曾经专门针对这一问题撰写过相关的文章。

  我也就这一问题专门询问过Hitwise,他们回复说:“我们的确正在将数据范围拓展到应用和移动领域。”

  这很不错,但目前的状况对Twitter这样的企业却没有什么帮助,毕竟与Facebook相比,它的实力还比较弱。如果无法进行公平的对比,那就不要对比,直接说二者无法对比就可以了。

  考虑到Hitwise并非唯一一家提供这类数据的企业,我还对许多公司的相关数据进行了检索,并发现这些企业都没有对Twitter进行正确的统计。这并非Hitwise一家公司的问题。

  美国搜索营销公司Chitika的最新数据就没有对流量进行统计,而是统计了多个社交网站的用户离开该网站后的访问倾向。其中Twitter用户离开后,访问新闻网站的比例最高,但该公司并未透露所谓的“Twitter”具体所涵盖的范围,以及统计方法。具体数据如下:

  Twitter:47%访问新闻网站

  Facebook:28%访问新闻网站

  Digg:18%访问新闻网站

  MySpace:新闻类网站未挤进前五

  Bit.ly或许可以成为一种间接衡量方式,该网站是Twitter的默认网址缩略服务。无论是使用Twitter.com还是相应的第三方应用,许多用户都会借助Bit.ly来实现跳转。这就意味着,通过Bit.ly的相关数据,可以更好地衡量Twitter为新闻和媒体网站贡献的流量。

  我曾经咨询过这些数据,但并未从Hitwise那里得到确切的信息。相反,他们为我提供了一个图表,显示了用户访问Twitter后又接着访问Bit.ly的比例。(在我这篇文章完成后,Hitwise为我提供了这一数据。数据显示,2010年2月,Bit.ly为新闻和媒体网站贡献的流量仅为0.0043%。我怀疑,这意味着Bit.ly也同样无法很好地反应Twitter的整体流量状况。)

  来路信息与上行流量

  包括火狐、IE、Safari和Chrome在内的多数浏览器都能够向网络服务器提供相关数据,帮助网站所有者了解用户是通过哪个页面访问该网站的。这个页面被称作“来路”(referrer),也经常被称作“推介来源”(referral source)。来路信息可以帮助网站所有者了解到访问该网站所使用的搜索关键词。他们同样可以借此了解到Facebook是否是其最大的流量来源,以及谷歌和其他网站在许多情况下是否具备良好的精确度。

  Hitwise并未报告来路信息。相反,他们主要是依靠相关交易从ISP(互联网服务提供商)那里获取数据。通过这种数据,他们可以了解到用户访问特定网站之前和之后的访问行为。访问特定网站前所产生的流量叫做“上行”流量,之后的流量称为“下行”(downstream)流量。

  这一数据的精确度无法与来路数据媲美。举个例子:你启动浏览器窗口时,自动打开了Facebook。你浏览了Facebook内的feed,但并未点击任何内容。然后,你决定搜索一下iPad的信息,于是你便在地址栏中输入了谷歌的域名,并进行了相关搜索,然后通过点击访问了苹果网站。

  对于这一过程的路径,Hitwise会做如下记录:

  Facebook –> 谷歌 –> 苹果

  但实际路径却是:

  Facebook

  谷歌 –> 苹果

  Facebook并未给谷歌带来任何流量。但在Hitwise的系统中,由于Facebook是你访问谷歌前所浏览的最后一个网站,因此,便成为了谷歌的“上行”流量来源。

  顺便说一下,如果你想亲身试验一下,可以试试这个网站(http://www.mobilefish.com/services/ipaddress_information/ipaddress_information.php),如果你直接点击这个链接,便会看到“referer”一栏中出现的是这篇文章的网址。如果你将这个链接复制粘贴到浏览器中,便会发现“referrer”一栏中显示的是“no referrer”。

  不求甚解

  总体而言,我认为许多网络研究公司都在急于推出统计数据。他们迅速发布了各类报告,但却并没有附带太多的分析。这就使得我们获得了失实的信息。当然,这种现象并不仅限于Hitwise。

  例如,今年早些时候有数据显示,44%的谷歌资讯读者只是浏览文章标题,而不会访问网站本身。这一情况是否属实呢?事实并非如此,我也曾专门撰文对此进行了分析。尽管如此,我还是不断听到这一数据被各方引用。

  与此同时,曾经有报道称,Facebook击败谷歌成为全美第一大网站。但事实上,这一数据并未对谷歌的所有资产进行统计,例如Gmail就被排除在外,因此Faccebook的规模是否真的超越谷歌还有待商榷。

  除此之外,Facebook还会对页面自动刷新。如果我通过Facebook访问了其他网站,那就可能会一整天为后者发送“访问量”,尽管我并没有这么做。这对没有具备自动刷新机制的网站而言,是否有失公平呢?

  要解决上述问题,并不容易。当我们获得了统计数据时,这些数据可能已经被掩盖、歪曲甚至存在不可比等问题。我可能与那些不求甚解便急于发布统计数据的机构犯过同样的错误。这种情况可能一直都是如此。但我今后会尽力对数据进行更为深入的挖掘,希望其他机构也能这样做。(鼎宏)

网友评论

登录名: 密码: 快速注册新用户
Powered By Google

新浪简介About Sina广告服务联系我们招聘信息网站律师SINA English会员注册产品答疑┊Copyright © 1996-2010 SINA Corporation, All Rights Reserved

新浪公司 版权所有