科技时代新浪首页 > 科技时代 > 互联网 > 05中国互联网产业百强专题 > 正文

图文:中国互联网协会秘书处处长孙永革演讲


http://www.sina.com.cn 2005年12月22日 14:51 新浪科技
科技时代_图文:中国互联网协会秘书处处长孙永革演讲
图为:中国互联网协会秘书处处长孙永革演讲(骆磊 摄)
点击此处查看全部科技图片

  12月22日,2005-2006年度中国互联网产业调查报告会暨中国百强典礼在北京举行,会上宣布中国互联网产业百强,包括:产业品牌50强和产业创新50强,共同组成中国互联网产业有史以来第一个产业百强名单。新浪科技现场直播了此次会议。

  图为:中国互联网协会秘书处处长孙永革演讲(骆磊 摄)

  以下为其讲话全文:

  孙永革:各位来宾,各位朋友,大家下午好,下面我们就2005-2006年度,中国互联网产业调查有关数据与收集整理分析的情况,做一下说明。为了搭建一个咨询平台,我们组织了这一次活动。我们进行了大量样本分析为业界提供了总的行业信息和产业发展状况报告。2005-2006年度第一阶段是今年的6月份开始的,历时了半年,第二阶段是从11月初到12月底,历时了两个月。包括一项主调查。成为中国互联网有史以来规模最大一次产业调查,这次调查活动中我们收到数据样本非常多,我主要就对数据样本情况给大家作一下说明。

  为了保证数据有效、真实从而保证报告公平、公正,我们对数据作了以下处理第一关于数据源,数据源来自中国互联网数据库。

  第二数据源于分析情况,数据源有一些符合要求,有的不符合要求,我们对不符合要求的进行处理、对不符合要求情况,有这样两类一个问卷:1、空白没有任何记录,2、问卷没有空白但是反馈数据项目不符合程序编写要求的,这数据库共有23308份。对于以上数据分析是这样,完全空白情况分析发现完全空白数据是非常靠前,应该到考察前进行调试,也不开排除服务器故障问题导致的问题,这是程序作弊的行为,我们处理的方式就是对以上两种数据采用而完全删除。还剩下9251条,对剩下的这一些数据,我们进行分析,其中虽然大都符合要求,但也可能有不正常的数据。

  不正常的数据有这么几种情况,一个是有姓名,但是记录姓名当中存在不合理的参数。经过统计,共计是1445处。数据有很多类雷同,提交1875份完全数据相同数据等等,这里面雷同的记录大概加起来总共5207份。除此以外还有一些雷同的问卷,有3342条,因此以上合计8千多条重复性比较多的数据,因此经过统计以后,把这些数据统统给它进行删除,第三,就是数据排序号在1800-3400之间还有大量的伪造用户的资料,比如说E-mail是伪造的。像数据都出现第16万序列号以后,进行分析我们就认为有作弊嫌疑,我们对它进行清理,最终的结果经过以上处理,我们刚才讲有效符合问卷形式9559条数据删除刚才不符合的,通过以上分析我们认为数据库大大提高,我们还经过一些处理,经过认真分析有一些作弊的痕迹还有一些可疑的数据,这样我们清除掉2350条记录,这样产生的原因,可能是由于网速不超过,我们删除了3500条,最终得到56759条,经过以上删除,应该说以上基本数据基本有效,以上情况就报告完毕。

发表评论

爱问(iAsk.com)



评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5595   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网