首页 新闻 体育 娱乐 游戏 邮箱 搜索 短信 聊天 天气 答疑 导航
新浪首页 > 科技时代 > 网络评论 > 正文

是否被微软监视 社会学者道出其中奥秘

http://www.sina.com.cn 2003年08月27日 09:41 ZDNet China

  8月27日报道编者-你有没有Usenet新闻组清单被人监视的感觉?被微软监视?

  如果是的,那么你的感觉对了。由于使用了社会学家Marc Smith的技术,微软正在紧密注视新闻组以及公共电子邮件清单,所谓的互联网“知识管理程序”。

  在微软的研发试验室,Smith已经花了几年时间来分析新闻组上的帖子以及帖子作者的
数据信息,他的雄心是,帮助人们更好的认识新闻组的丰富多彩。其间既有无所不知的游侠,热血沸腾的好战分子,垃圾邮件制造者,也有新入行的菜鸟,Smith估计,新闻组的用户数量去年已经超过1亿。

  Smith的思路是,你可以从跟踪新闻组用户的社会习惯上得到很多有价值的数据信息,这种方法需要检索成千上万的帖子信息,因而也增加了网上隐私被窥的危险。

  在微软用于分析新闻组及其用户的NetScan(http://netscan.research.microsoft.com/)服务推出以后,Smith向CNET新闻网站谈及了这种服务的细节,微软对新闻组的兴趣,以及他们正在开发的能够连接现实世界和网络空间的程序。

  象你这样的人怎么会为微软工作?

  我是名社会学家。我已经在微软的研究部门工作了4年半了,微软内部还有几个社会及认知心理学家,但我是唯一的社会学家。

  那么在这个技术部门,你的具体工作是做什么呢?

  一名社会学家主要研究一个群体及其社区中人与人以及组织与组织之间的关系。作为一个技术开发群体,我们的主要目标是探索网络社区的特点以及建立相关的研究工具。我们社会学家不喜欢用“社区”这个词语,我们更喜欢用社会性的网络空间来表述它。

  “社区”这个词有什么不妥?当我们谈论互联网,这个词语就一直在使用。

  当我们说“社区”这个词时,也许我们指的是被社会学家称为集体行为的一种情况。人们使用电脑的第一件事情是彼此发送电子邮件,第二件事情是发送组织电子邮件,象参加类似微软产品爱好者组织等等。

  那么微软为什么需要常驻社会学家?

  微软在网络社区上已经投资很多,并且近来也在加强工具开发工作。和其它企业一样,微软关注社区的主要原因在于对知识管理应用软件(knowledge-management application)提供支持的需要。如果你上新闻组,你会发现3000个微软公共新闻组存在,有150万人正在发1000万的帖子。这是2002年的统计数字-今年这一数字将会翻番,理由是2002年的数字比2001年增长了2倍。我们没有看到衰退的迹象。

  我的印象是使用新闻组的人数在下降。

  恰好相反!人数在上升。新闻组-绝大多数人不了解它存在于何处,如何寻找它-的用户数2002年达到了1310万人,这还仅仅是至少发了一条帖子的统计。那么还有多少人浏览过新闻组上的帖子呢?我们不知道。这个数字是无法估量的。但假如我们保守的以1条帖子有10个读者来计算,那么新闻组每年的用户就是1.3亿,这样的数字和majordomo lists这样的新闻组的用户数目相比,象雅虎新闻组,以及UltimateBBS等又是小巫见大巫了。

  从社会学的角度上讲,你们用这些新闻组来做什么呢?

  我们正在做的都是围绕新闻组上的帖子来展开的。这些社会数据的核心不是IP人数,或者类似的东西,核心在于人际之间的交流。在组成互联网的这些核心数据的附加价值研究上我们花的功夫很少,但对它的研究令人惊讶。我能够通过简单的帖子类型分类分析出交流的某些特征出来。

  你说的帖子的类型是什么意思?

  我的意思是说帖子的数量,长度等等。如果有8个人回复了帖子,那么这条帖子的长度为8,如果有12人回复,则长度是12,用帖子类型来分析相当管用。

  我们统计发现,2002年,新闻组上三分之二的帖子有两条回复。三分之二的人至少一天写一条帖子。

  这属于垃圾邮件问题范畴吗?

  不,他们不是垃圾邮件制造者,他们是一些以发贴,然后获得回应为乐的人。他们的帖子不登大雅,但他们可以获得别人的回复。新闻组本质上是一种知识管理软件,它的作用在于调节公众的集体智慧。

  那么知道这些信息又有什么作用呢?你们能够用这些信息来做什么呢?

  你可能这样说:“让我们看看每个独立的ID用户发帖的次数吧,2400万次?那么他就是垃圾邮件制造者。”人们书写,发送与思考帖子信息的能力是有限的,而软件本身并无好坏之分。我们的意思是:“通过研究这些因素,比如作者,帖子与新闻组本身的结构,我们可以获得许多有价值的信息。”

  举个例子:假设你有一个新闻组,这个新闻组每月的帖子量为22000,于是你的麻烦来了!你如何阅读这些帖子?我们有一些建议。在现有的浏览器上,你可以根据这些帖子的日期,大小或者字母顺序来进行阅读,但这不十分有用。我们想说的是:“新闻组上有许多参与者,不同的信息来源途径,而交流带来更多的有价值的信息。”

  比如,我们怎样才能知道人们正在谈论什么?我们的方法是按照日,周,月,年的顺序统计那些超过40个回复的帖子,于是我们知道哪些是热门话题,我们如何知道这些话题是好的?我们无法做到这一点,但我们知道这些话题是新闻组中让人们感兴趣的话题。这就是一个参考因素。

  但怎样获得那些只有两条回复帖子主人的信息呢?

  你可以争论说,“这些微不足道的帖子信息价值何在,你如何才能帮助我找到他们?”答案是,我们通过分析一种集体行为中潜在的结构性数据来达到这些目的。有许多分散的网友存在。如果只有一个人在写网页,那么Google就不会存在。但Google和我们研究新闻组的方式不同,我们的研究将对新闻组有益。我们还不是一种搜索引擎,我们是一个研究项目,我们研究的对象是全文信息。

  让我们再来看那些发帖的个人。他的参与行为可以成为长期的发贴的指示行为吗?这取决于你如何看待价值的涵义了。人人炯异,我们并不告诉你发贴之人是什么样的人,但我们可以为你提供一套区分差异的工具。

  让我告诉你怎样使用我们的帖子作者跟踪器来找到那些可以提供很好的技术信息的人吧,它主要是根据一个新闻组中人员的参与程度来进行参考的。简单的讲,就是此人是经常发贴之人吗?

  经常发贴的人能够说明什么呢?

  经常发贴之人是有价值的人。但你可能怀疑,我们不过是根据他们发贴的次数来进行衡量。比如,如果你去一些技术支持新闻组,就会发觉有人会天天光临。是的,这些人就叫经常发贴之人。但是你如何才知道他们是有价值的呢?关键并不在于他们发贴的频率有多么频繁,而是要取决于另外一些因素,第一是帖子的回复率“这些人回复其它人的次数?或者是开始一个新帖?垃圾信息制造者也会天天光顾,但他们不会进行回复。如果他的回帖率很低,即使他发了许多的信息,此人也很有可能是一个制造垃圾信息的人。每天光顾还不够-你还得回复别人的帖子。另外的因素是帖子的受关注程度。你的帖子吸引了多少跟帖?你写了10次,但只有一个回帖,你的效率也相当的低下。

  这是好是坏呢?

  我是社会学家-我不知道好与坏之间的差别,我只知道差异之间的差别。如果你用大量的帖子攻击我是一个傻瓜,而跟帖甚少,你的帖子的受关注程度仍然很低。

  如果你想找到一个回答问题的人,那么关注跟帖率吧。他们每天在新闻组上出现,并且回复别人的帖子,也许是一到两篇。我们曾经发现,有人一周内在一条帖子后发了500条跟帖,这并不关乎好与坏。我们可以帮助你找到真正可以帮你回答问题的新闻组,不光是电脑,还有针织,赛马,赛狗等等信息,而我们的途径是考察帖子作者的社会行为因素。

  那么所有这些好处能不能最终被运用到搜索引擎中去呢?

  如果研究进展顺利,我们的搜索引擎的性能将得到改善。虽然我们的研究还处于初级阶段,但这条途径是有希望的。按照社会行为重新排列搜索结果的方法更为合理,我们的技术将最终帮助你知道想要的结果。

  我们中的很多人依靠记号或者符号来判断一个人,你依靠文凭判断一个人是否是博士,依靠一个人的外表来判断他是否是官员,更加重要的是,依靠别人的推荐信息来判断另外一人。所有这些信息都是你要依赖的指示信息。我们正在试图建立类似的网络环境的指示工具,在这样的环境下,数据信息是潜在的,而非存在于表面。

  当你谈及这种声誉系统(reputation system),我不仅联想到了eBay的系统。

  两种系统相似但还是存在着差别-eBay的系统是一种直接的反馈系统,我们的也是。在eBay的系统中,在一笔交易完成之后,买者评价卖者,卖者也评价买者。这套系统的核心是对一个人的评价。但这里存在问题-这就是其中的很多评价都存在“通货膨胀”,也叫“贝弗利山毗邻”(Beverly Hills-adjacent)效应(越靠近贝弗利山地区,地价越贵)。因此,eBay的系统存在一种膨胀趋势。eBay的经验已经证明,单靠它们提供的声誉评价系统,用户无法避免虚假交易信息。

  给我谈谈AURA(高级用户资源评价)项目吧。

  AURA将是NetScan的延伸:“如果用NetScan,你怎样在掌上电脑上访问新闻组?”我们用东芝e740与条形码闪存阅读器,再加上AURA软件,可以扫描任何的条形码物品,或者带有ISBN代码的物品,这样,你就可以用掌上电脑浏览网上杂货店商店的任何商品信息了。

  在萨斯爆发高峰时期,香港就使用了一种能够告诉你哪栋建筑里面有已经证实的萨斯病例的系统。这就是一种声誉系统。

  好像物品比人更适于这项工作。

  人只是其中一种,而物品-比如书架上所有的书,厨房里所有的食品,走廊中的艺术品-我们微软能够将所有的这些物品实现条码化。AURA准备成为一种导航工具。你可以花一美分打印条形码,然后把它贴在物品上,我们来做贴码工作,然后另外的机构扫描识别这些条码就是了。

  似乎微软正在跟踪个人的私人信息,你们会有麻烦的。因为还有隐私规定呢?

  我认为这是很重要的事情。我们的NetScan中已经有保护法律规定的隐私机制。和Net spider一样,NetScan只搜集互联网上的网页公共信息,而对于那些在网页元数据(Metadata)中明确拒绝信息搜集,以及robots文件中有“你可以浏览信息,但不要利用它”的网页,或者标记有“别碰我的帖子”标志的新闻组信息,我们是不会对其进行信息数据搜集工作的。如果你在你的网页信息中明确规定了此类禁止信息,我们不会碰你的信息。

  难道垃圾信息制造者不会同样在他们的信息中加入此类的禁止信息吗?这样你们就不能判断他是否是垃圾信息制造者了。

  有这种可能,因为我们尊重隐私规定。但我们的系统有办法可以鉴别出来这类人来。

  你们如何打消哪些担心你们搜集人们网上隐私的人的顾虑呢?

  我不确信,但现在我们有可能到处泄漏我们的数据信息。一方面,这有利于其它人,另外一方面也存在隐私泄漏之忧。也许将我们自己看成是在做表演艺术活动比较好。你喜欢自己欣赏自己吗?我们承认并希望我们可以为人们提供更有效的隐私保护机制。人们可以选择多个ID身份和电子邮件地址。到最后,我们可能不得不将我们的身份分散化。


评论】【IT业界论坛】【推荐】【 】【打印】【关闭

     快来新浪搜索引擎!
加快业务步伐,参加2003 IBM软件年会!

  投票! 赢超酷腕表式手机!
  注册新浪9M全免费邮箱
  说一口流利英语,其实不难? MBA联考培训特惠
  无数人梦寐以求的境界,亲密接触,激烈搏杀,包你爽上“天堂”
  第53届世界小姐中国总决赛报名开始

新 闻 查 询
关键词一
关键词二


search 摄像机 减肥 停电装备
 

新浪精彩短信
两性学堂
性生活中,女性不睁眼睛是在进行性想象。她们将……
非常笑话
病人:我周围的人居然不认可我的身份,气死我了…
图片
铃声
·[周杰伦] 开不了口
·[陈慧琳] 恋爱情色
·[林心如] 投怀送抱
铃声搜索




新浪商城推荐
佳能数码相机
  • A60A70新品上市
  • s45 送128兆
  • igo5美味购物体验
  • 特价原装手机配件
  • 十大禁书1.7折
  • 上网体验潮流科技
  • 全新手机百元起
  • 彩信手机百元起拍
     (以上推荐一周有效)
  • 更多精品特卖>>

     发表评论: 匿名发表 新浪会员代号:  密码:
    每日2条,28元/月
    原色地带--普通图片铃声,5元包月下载,每条仅0.1元 
    炫彩地带--彩图和弦铃声,10元包月下载,每条仅0.1元
    爆笑无比精彩无限,成人世界的快乐享受
    一商人乘出租车外出,汽车在盘山公路突然打滑,司机吓得大叫:刹车失灵,我该怎么…
    每日2条,30元/月



    科技时代意见反馈留言板 电话:010-82628888-5488   欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    Copyright © 1996 - 2003 SINA Inc. All Rights Reserved

    版权所有 新浪网