2004互联网络信息资源数量调查报告:调查方法 |
|---|
| http://www.sina.com.cn 2005年04月13日 16:50 新浪科技 |
|
4月14日,中国互联网络信息中心(CNNIC)将在北京发布《2004年中国互联网络信息资源数量调查报告》,本次调查由国务院信息化工作办公室委托,CNNIC实施,调查内容涉及域名、网站数、网页及数据库等多项内容。 以下为调查方法: 一、总体界定: 按照上述的关于中国互联网络信息资源的定义,将目标总体定义为“全国范围内以Web形式公开提供服务的网站”。 为了调查的方便,将总体分为两个部分: 子总体A:中国大陆(不包括香港、澳门、台湾地区)所有已注册域名的网站,包括.COM, .NET, .ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有网站。 子总体B:中国大陆(不包括香港、澳门、台湾地区)未注册域名的网站。 考虑到子总体B的网站数量较少,在本次调查过程中予以忽略。以下所述内容均针对子总体A。 二、调查方法: 分析以前的调查结果发现,由于不同类型的网站在相关参数诸如网页数量等方面存在较大的差别,当然结果方差也较大。为此,考虑整个调查以抽样调查和电话访问的方式为主,通过抽样调查对全国的互联网络信息资源的状况做一个全面的了解。 三、抽样调查: (一)抽样指标 在确定分层后各层的样本量以及用各层样本数据推断全国时,我们考虑的指标是“网站数量”。 (二)目标量分类 总量:比如说总体中拥有在线数据库的网站数等; 比例:本调查的总体目标量大部分都是以比例的形式出现的。 (三)样本量 在置信度为95%,最大允许绝对误差为3%时,综合考虑设计效应等因素,设计样本量为2200个,本次电话调查实际得到的有效网站样本数为2201个。 (四)抽样方法 抽样方法采用分层多阶段混合型抽样,考虑到各域名类别下网站特征的差别,首先按网站的域名类别分层,之后在每个类别内采用等距抽样的方法来抽取样本,最后对各类别的调查结果进行事后加权处理以估计全国。 第一阶段:将样本量分到各层 本次调查除了估计总体特征外,还对政府网站、商业网站、教育科研网站以及个人网站的特征进行调查与估计。如果完全按照“各类别网站数占全国网站总数的比例”来分配样本,会使得一些类别(如.EDU.CN、.GOV.CN等)的网站样本量偏小,因此我们采用配额的方式分配样本量,并进行事后加权。 第二阶段:将样本量分配到各域名注册/代理商 由域名注册/代理商按照统一方法,抽取指定数量的网站作为样本网站。样本网站按照各家域名注册/代理商所注册拥有的网站数的比例进行分配。具体计算办法如下: 其中: 表示第i家域名注册/代理商所应抽取第j类的网站数, 表示第j类应抽取的网站样本总数, 表示第i家域名注册/代理商所拥有第j类的网站总数, 表示第j类的网站总数。 第三阶段:各家域名注册/代理商抽取网站样本 为了便于各域名注册/代理商抽取样本,保证抽样的精度,本阶段采用等距抽样。各家域名注册/代理商在整理了网站名录(抽样框)后,可按照以下步骤抽取样本: 步骤1:分组 以网站的域名类别为单位对网站名录进行分组,分成9个组,分别为:COM、NET、ORG、CON.CN、NET.CN、ORG.CN、GOV.CN、EDU.CN、.CN。 步骤2:排序 由域名注册/代理商对其抽样框(网站名录及相关要求信息)内各组网站首先按照网站省份排序,进而在网站省份下按网站所属域名注册时间进行排序。 步骤3:编号 对各组内完成排序的网站进行编号。网站省份排序次序规定如下: ![]() 网站省份排序次序规定 步骤4:抽取样本 以第i个域名注册/代理商、j类的样本抽取过程为例。在第j组网站列表中抽取出指定数量的 个网站作为该域名注册/代理商提供的第j类的样本,抽取的规则如下:首先随机从1到 中选出一个数S,那么编号为P=S+kXRound( )(k=0、1、2、3…… )的网站即为被抽取的样本网站(当P> 时,取P=P- )。其他组的样本抽取过程类似,将9个组中抽取到的样本综合到一起可组成第i个注册/代理商应抽取的样本。 步骤5:获取样本相关资料 将以上步骤所抽取的样本网站及其相关信息(包括:网站名称、网站域名、网站所在地、域名类型、网站所属单位性质、网站联系人、联系电话、E-mail)存为Excel工作表文件。格式如下: ![]() 抽取的样本网站及其相关信息 将所有注册/代理商提供的样本合并即成为调查所需样本。 第四阶段:访问过程和搜索过程 根据所抽取样本的联系人及联系电话,对样本进行电话访问。先询问网站的一些基本情况,然后根据网站的不同类型进行不同网站的详细情况的调查,之后询问各种网站共同的内容和在线数据库的内容。 上述的问卷调查过程可获得网站、在线数据库的相关特征、影响等指标。网页特征的相关指标,可通过网络搜索系统对网站进行搜索获得。 (五)结果估计 由于样本按各类别网站数所占网站总数的比例分配到各类别,在各类别中的样本抽取是等距抽样,故此整个样本可视为近似的自加权样本,采用简单随机样本的公式对估计量进行计算。同时可对结果以各类网站数占网站总数的比例作为权重进行事后加权以校正误差。 |









