首页 新闻 体育 邮箱 搜索 短信 聊天 天气 答疑 导航
新浪首页 > 科技时代 > 业界动态2 > 思想的重量-权威学术报告专题 > 正文

上海社会科学院部门经济研究所葛伟民:比特世界

http://www.sina.com.cn 2003年02月28日 14:47 新浪科技

  上海社会科学院部门经济研究所 葛伟民

  说出一个很大的数字,谁能看得懂?

  现实世界是很难描述的。可是,人们有意无意就将它描述得更为难懂。您知道300亿兆比特是什么含义?

  我们所里原来有一个数量经济和统计研究室,后来人员凋零,归并到了工业研究中心,那里有一个元老,是专门研究统计学的。前几天,他来问我,总是看到报刊上有现在某地某年信息流量达到了多少亿兆比特的说法,这个“比特”是个什么东西?对于信息流量的大小,在统计学意义上应当怎么来理解?这种用比特来表示的信息量,对于描述信息化程度具有什么意义?

  当然,学过计算机原理的人对于“比特是什么”这样的问题会不屑一顾。但是,对于信息经济研究或统计研究来说,其实这个问题还真的有点复杂!

  一、是不是知道有多少比特就知道有多少信息?

  不论“比特”是什么。兆和亿是能够拿来唬人的好东西。很多文章其实是记者写的,记者喜欢他的文章造成轰动效应,喜欢使用足够大的数字。于是,不论他自己是否理解,只要采访到听上去很大的数字,就会产生职业性的兴奋。

  于是,报刊上就会出现某某城市的信息流量已经达到了多少多少亿兆比特这样的说法。能够将读者蒙得满头雾水最好,反正是个很大的数量。“给你留下‘美好’的想象空间”!

  其实比特是个很小很小的东西,正因为它足够小,它前面的数字才会变得足够的大。

  现代英汉词典对于“比特”的解释是:

  bit

  (二进制)位,比特;[位元,数元]

  ⑴In the pure binary numeration system, either of the digits 0 and 1.

  在纯二进制记数系统中,数字0和1中的任何一个。同binary digit。

  ⑵A single pulse in asgroupsof pulses.

  一组脉冲中的一个单脉冲。

  ⑶The smallest unit of information capacity of a storage device.

  存储设备中的最小信息容量单位。binary digit的缩写。binary element, Shannon的旧的用词。

  美国传统辞典(双解词典)对于“比特”的解释是:

  A single character of a languageshavingsjust two characters, as either of the binary digits 0 or 1.

  位,比特只有两个数的语言的一个数,如二进制数0或1中的任何一个。

  “赛迪网”的“电脑大辞典”对于“比特”的解释是:

  Bit比特

  内存中最小单位,也叫“位”。它只有两个状态分别以0和1表示。我们还知道:1个字节有8个“0或1”的“位”;1024个字节等于1K;1024K等于1兆,又叫做1MB;而1000兆被称作1G。

  通常,1个字节能够代表一个英文字母(实际使用7个位),大写或小写的;而1个汉字需要两个字节来描述。所以,1024个字节,就是1K,能够表示512个汉字;1兆就是大约可以包容50万个汉字;我们说一张3寸软盘,1.44兆的,大约可以存放70万个汉字,就是这个意思。如此,你也应当知道了通常流行的PC配置,40G硬盘和80G硬盘大致上是个什么概念了。

  有时候看到的有关超级计算机的报道,说什么数据存储量相当于3亿本书,差不多是国会图书馆藏书量的六倍。其实也是记者们唬人的话。我计算了一下,即使是完全不压缩的格式,如果以每一本书平均是20万汉字(当然这是瞎掰的)计算,3亿本书占用的硬盘空间,也只有相当于1500个80G硬盘的容量。而IBM公司制造的那一台超级计算机ASCI White(全称为Accelerated Strategic Computing Initiative White:加速的战略计算计划白皮书),这台价值1.1亿美元的超级计算机包含有8192只微处理器。八千个CPU对一千多个硬盘,硬盘的数量也不算多。

  更何况,实际上:首先,数据是可以压缩的。有时候8兆的文件,可以压缩到只有1兆,文本文件,通常可以压缩一半。其次,硬盘几乎是可以“无限”挂接的。除了内置,还可以外置。因此,所谓3亿本书的容量,也是蒙人的。

  而从另一个角度来说,如果这些书不是用文字格式而是用图像格式来保存,那么,“比特量”又会急剧膨胀。我们需要明确两个方面:首先,一页书,同样的内容,以图像格式来保存到计算机,占用的空间通常比文本格式大很多。其次,同样是图像,用图像的哪一种格式来保存到计算机,用同一种软件的不同版本来保存到计算机,占用的空间也很不一样。例如,看上去是同样质量的照片,BMP格式的文档就要比JPG格式的文档大上近十倍或更多。我刚试验了一下,2305K的一幅BMP格式24位图像,用ACDSEE3.0打开,另存为JPG格式图像,是57K。用ACDSEE4.0打开,另存为JPG格式图像,只有27K。而图像的质量,肉眼难以分辨。

  由此可见,知道有多少比特,不等于一定知道有多少信息内容——当然,通常人们会认为比特量就是信息量。

  二、信息量是否等价于知识量?

  信息量是否等价于知识量?由图像的各类格式占用空间的大小区别我们就已经可以得出结论了。

  同样的图片质量,文档的大小未必一致。反之,占用空间很大的图像,未必就一定是质量很好的图像。我买过国内生产的图片资料库光盘,有的将图片都做成BMP格式,一张光盘650兆,质量很好的JPG格式图片应当可以存放数千张,而他们都搞成BMP格式的图片,几十张图片就挤满了一张光盘。因此,一套光盘即使做到十来张,图片的总数也很少。不像Microsoft每年出的光盘数据库那样货真价实。

  还看到过有的文章说,人们在看电视时接收到的信息量,至少是看书时接收到的信息量的4000倍。

  这也是有误导作用的说法。

  这又是Bit惹的祸!

  我计算了一下他们的理论根据,如果是看VCD,一张光盘650兆,可以播放70分钟,那么就等于每秒有158.48K的流量,折算成汉字是81141个。所谓4000倍,就是假定每秒看20个汉字。确实,认真阅读,每秒看不到20个汉字。如果说每秒看10个汉字,电视的图像质量稍逊与VCD的质量,也打个对折。那么,还是4000倍的结论。如果是DVD,其盘片容量是VCD的7倍,由于DVD播放的图像和声音质量更高,那么“在理论上”,从接收“信息”的角度说,更是万倍于读书了。

  如果“比特量等于信息量”,“信息量等于知识量”,那么大家也就不要去看书了,整天看电视、电影吧!

  这是不同的信息形式,但是信息形式相同或接近也是如此。老子的《道德经》只有5000字,知识含量不会比一本普通50万字的小说或论著差。当然这种类比也很牵强。还有就是人脑本身的作用。我们知道,那些拳经剑谱,有图像说明的,并不是将许多连续的图片以每秒24张的速度播放成动画片,一个动作,只要一张图,加上几条动作轨迹示意,人脑就会将图片上的人物活动起来。同样的道理,一张图片,有没有动作轨迹示意,虽然比特的增减数量很小,但是所包含的知识数量就大不一样!

  所以,比特量不能代表知识量。当然也不能代表我们通常看作是等同于“知识”——消除不确定性等等的“信息”的量。

  啊啊,当然,并不是所有的信息都是知识。

  至于联系到主观判断的信息量或知识量的大小,就更不在本文的讨论范围之内了。

  三、数据库大小就说明信息量包含的大小吗?

  数据库的一个重要的特点就是能够减少信息冗余。

  压缩文件的基本道理类似于数学中的提取公因式。例如刚才说的两个字节代表一个汉字,那么,加上这个汉字的其他信息,如字体、大小、在文章中出现的部位等等,就不止两个字节。如此说来,如果像我们看到的书面形式那样,“平铺直叙”地将文字写到计算机储存介质上,50万字占用的空间可能就不止1兆。但是,一篇文章中同样的字必然会出现很多次,50万字的长篇,或许使用的汉字不会超过5000个。那么,我们就可以提取不到5000个汉字,然后用很少的信息指明它们在文章中出现的部位就可以了。当然,压缩软件不是就这么简单的。但是这个基本道理是不错的。例如,将字看作汉字编码而不是不可拆解的字,相同的地方就更多。所以,长度达11兆多的“中国互联网络发展状况统计报告_sumup-4.doc”这样的文档在WINZIP的作用下被压缩成3.045兆,也是不稀奇的。

  数据库也应用压缩文档的技术和基本原理。并且,技术越是好的数据库,同样的内容也能做得更小,占用的空间更小。在理论上,越是大规模的数据库,在技术上可被压缩的空间弹性也越大。

  所以,数据库做得很多、很大,不一定就是代表信息化发展水平很高。通常我们可以听到:我国10兆以上的数据库有多少多少,100兆以上的数据库很少等等。那也与数据的形式有关。如果是做图像资料库和影视音乐资料库那种特殊类型的数据库,容量就必然做得很大,尤其是为了做到高保真的程度,就会搞得更大。

  同时,近几年来人们对信息的形式要求也改变了,更需要多媒体的形式而不仅仅是枯燥的数据形式。例如,普通的统计数据,做成图形甚至动感的图形,比特量就会上升。

  四、是否能用信息流量来描述信息化程度?

  说了半天,正正反反,那么报道的比特量究竟是哪些东东呢?包括一些什么统计指标呢?老实说,我也不清楚。但是责任不在我,因为报道就是报道,新闻就是新闻,记者通常很少对引用的数据说明统计的根据和方法。同时,这也是一个很值得研究的问题。

  因为,互联网上的信息流量,是一个总量;是所有上网计算机信息流量的总量。同类信息的流量也是被统计在内的。而且总量的统计很少有误差。虽然,这儿也有许多问题。例如,带宽增加和上网方式的改变,网页字节的增大,多媒体形式的丰富,下载软件的增加和影视点播等都会引起互联网上的信息流量的大幅度增长。即使是软件检测升级版、垃圾Email的增长和下载软件的半途失败等都会引起信息流量的大幅度增长。同时,我们还知道,文字与图像、影视的比特量是很不相同的。还有就是与数据库技术相同,很差劲的制作网页的技术,可以制作出“比特量”很大的网页而信息质量一丁点儿也不高甚至相对来说反而很低。而所有的这一切,不论实际内容和情况有多么复杂,还是“可以观察到的”。

  而其他类型和形式的信息就不同了。例如电视和广播,源泉的信息流量是比较容易统计并折算成比特的。但是,“客户端”的情况就难以掌握了。我们能够做到的至多是依靠抽样调查得来的数据。例如是这样的提问:你每天看多少小时电视?听多少时间广播?然后就折算统计出一个信息流量。与上述的道理相同,如果当地的人比较喜欢看电视而不是比较喜欢看书,另一个地方的习惯和观念不一样,那么得出的测算结果也会大相径庭。虽然我们不能判断看书是否比看电视更加增长学问。

  另一个有趣的问题是:老百姓同样每天平均看3个小时电视,有5个可选台与有99个可选台究竟在关于比特的统计方面如何来体现差别?

  当然,关于报纸和书刊的发行,数量的增加会被统计进比特量。在这儿,我们通常也只能将浏览报刊和阅读报刊当作是同样的;将收藏书籍与阅读书籍也当作是同等的。尽管这是多么地“不公平”。但是从“比特量”方面来说,买书与看书的差别相对看书与看电影的差别,实在是小巫见大巫了。

  最后的疑问是:究竟能否用比特量来描述信息化程度?

  应当说,有意义的数据是对比的数据。这种对比至少有两个方面:一是同地不同时期的对比;二是异地的对比。特别是人均比特流量的对比。前提是:假定信息量的增加没有什么非“正常”因素;假定比特量的增加总是能说明信息化程度的提高。

  当然,说到底,对比也只是大致说明问题。因为,没有办法的办法总比没有办法好。多一个视角看问题通常也比少一个视角好。

  真要据此得出什么结论,嘿嘿,还是要做到心中有数!不要以为多看电视的文盲比钻研文字资料的科学家信息化程度更高就好。

  (本文原载于《网络与信息》杂志2002年第12期)


评论】【IT业界论坛】【推荐】【 】【打印】【关闭

  订新闻冲浪 互动点播 赢彩屏手机MP3播放机!
  30M任你邮送相册,免费试用抽大奖
  在职硕士英语在线学习优惠送内部教材

新 闻 查 询
关键词一
关键词二

search 奥斯卡 T508手机 首饰
 

  新浪精彩短信


新闻冲浪知天下事
赢MP3、彩屏手机

5元!激情男女宝典
疯狂铃声 鸟叫铃声
[五月天] 摇滚本事
[陈慧琳] 爱情来了
[Twins ] 风筝与风
[和 弦] 小城故事
更多精彩铃声>>









图片专题:流氓兔!
诺基亚   西门子
摩托罗拉 三星
阿尔卡特 松下
爱立信   三菱
更多精彩图片>>



产业资讯诚招代理!

企 业 黄 页
在线商机
买:生活水处理设备
卖:国际顶级域名
企业推荐
顺沪经济贸易有限公司
艺野室内装饰有限公司
更多商情发布>>

分 类 信 息
:在职研究生班热招
   手机有礼武汉分类
   春季旅游江苏行
:雅思深圳考试中心
:完美学涯华申留澳
分类信息刊登热线>>

 发表评论:  匿名发表  笔名:   密码:
铃声 图片 订阅 言语传情 游戏 职业特工队 爱情快递
· 订新闻冲浪尽知天下事赢彩屏手机!
· 独家射雕英雄传彩图
· 两性学堂 和爱人共享激情时刻!
· 鸿运当头 新东方春节送吉祥
· 每月5元!“激情男女”尽享狂野浪漫
· 海湾战云密布 聚焦美伊最新动态
· 百变铃声千变酷图 每月5元轻松拥有
· 点歌祝福传递柔情蜜意 语音祝福
头条新闻
(30元/月)
新闻冲浪
(8元/月)
激情男女
(5元/月)
体育新闻
(0.2元/条)
非常笑话
(0.5元/条)
两性学堂
(0.5元/条)
你的手机: 手机密码:   > 快速获取密码
自写短信 精彩专题:短信宝贝可爱秀 诱惑的青春 生日祝福 韩国PUCCA卡通
  你想让你的爱情开花结果吗?短信宝贝,让你们体验爱情的甜蜜,儿女的可爱,家庭的温馨。发送0到888808,即可注册  




科技时代意见反馈留言板 电话:010-82628888-5488   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2003 SINA Inc. All Rights Reserved

版权所有 新浪网