我国互联网络信息资源第三次数量调查说明 |
---|
http://www.sina.com.cn 2004年03月31日 16:39 新浪科技 |
2004年4月1日,国务院信息化工作办公室将发布2003年中国互联网络信息资源数量调查报告,本次调查是我国互联网络信息资源的第三次数量调查,开始于2003年12月,结束于2004年2月,历时3个月。 调查说明如下: 一、调查对象 所有域名注册单位属于中国(不包括香港、澳门、台湾)的网站总和,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN,EDU.CN等)下的所有网站。 二、调查内容 表1调查内容和指标 三、调查时间 调查时间:2003年12月-2004年2月;数据截至时间:2003年12月31日。 四、有关概念 1.在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。 2.中国互联网络是指所有域名注册单位属于中国大陆的网站总和。 3.在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。 4.网站是指有独立域名的web站点,其中包括CN和通用顶级域名(gTLD)下的web站点。此处的独立域名指的是每个域名最多只对应一个网站“WWW.+域名”,如:对域名sina.com.cn来说,它只有一个网站www.sina.com.cn,并非它有news.sina.com.cn、mail.sina.com.cn……等多个网站。 5.商业网站指业务主要在网上进行的电子商业网站,如新浪、搜狐、网易等网站;企业网站是相对于商业网站而言,指业务主要在网下进行的企业所建立的网站,如联想集团的网站www.lenovo.com。 6.网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的层层链接,抓取所有属于该网站的网页的特征及其文本内容。 7.静态网页是指URL中不含?和输入参数的网页,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。 8.动态网页是指URL中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI等在Server方进行处理的网页。 9.网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网页在HTML中的声明来判断的。因为大量国内的英文网页在其HTML声明中都是简体中文。 10.网页的内容形式:是通过文件后缀获得的。关于图像、音频、视频的文件后缀定义标准参考MIME标准。 11.网页的更新情况:网页的更新时间是指搜索到该网页的当日日期与该网页的最后更新日期之间的时间段。 |