科技时代新浪首页 > 科技时代 > 业界 > 2005数字电视产业高峰论坛专题 > 正文

图文:数字音视频编解码技术标准工作组高文


http://www.sina.com.cn 2005年08月18日 14:07 新浪科技
科技时代_图文:数字音视频编解码技术标准工作组高文
图为:中国科学院计算技术研究所研究员、博士生导师,数字音视频编解码技术标准工作组组长 高 文 先生演讲。(骆磊 摄)
点击此处查看全部科技图片

  新浪科技讯 由中国国际广播电视信息网络展览会和中国

数字电视杂志社主办的2005中国数字电视产业高峰论坛于8月18日-19日在北京召开。它是中国及全球范围内数字电视产业领域最具权威、最具影响力的行业盛会。新浪科技对此次论坛做了全程直播报道。

  图为:中国科学院计算技术研究所研究员、博士生导师,数字音视频编解码技术标准工作组组长 高 文 先生演讲。(骆磊 摄)

  以下为其演讲全文:

  主题:第二代数字音视频信源标准进展

  中国科学院计算技术研究所研究员、博士生导师,数字音视频编解码技术标准工作组组长 高文:

  女士们、先生们大家好,我们现在数字音视频信源标准,正处在从第一代到第二代非常关键的时刻,也刚在这个时刻的时候,国内的应用非常蓬勃发展,包括明年要打的直播卫星,包括最近炒得很热的IPTV,包括很快要部署的第三代通讯移动里面用的手机电视,都会涉及到这里面的一些问题,借这个机会给大家介绍一下,第二代信源编码到底会发展到什么程度,以及我们面临的挑战。我给大家介绍三个方面。

  我们首先讨论关于视频编码的历史。现在国际上从事视频编码标准这样的工作一共有两个集团,或者叫两个专家组,一个专家组叫WCEG,是视频编码专家组的缩写,这个专家组是属于国际电信联合会,就是ITU—T,在他的下面有很多专家组,其中有一个第16组,SG下面的的小组是专门做视频编码的,这里面大概有60多名专家参与这个研究,所以它主要考虑在通信领域里面怎么做这个的研究。另外一个专家组可能我们大家知道MPEG,就是运动图象专家组,这个专家组是属于国际委员会的家组,这个专家组在整个国际标准化里面的排号是在第一委员会,第29个委员会的第11工作组,里面有一个叫技术委员会的,是IEC的所以叫联合的技术工作委员会,所有的和多媒体有关的都是在第29里面,我们知道

数码相机的那个标准是在那里面做出来的。在29分委员会里面,图象压缩和视频压缩是不同的组在做,参加这个工作组的有300多位专家,因为是IEC和ISO联合起来做的,主要是联合广播做的标准。

  这两个委员会从目前整个历史上,贡献是很大的,最早的是H.120,这是整个组织的老祖宗,但是这个没有被使用,因为当时响应的很好,但是做出来的很贵,很繁杂,所以没有真正被使用到,真正被使用到的是H.261,现在很多视频会议里面用的就是这个标准,当时1991年开始MPEG就成立了,MPEG做的第一个标准就是MPEG—1,在1993年完成的。完成了以后,当时很多专家都认为,因为当时很多家庭的电视只有300多线,我们之在电视台里面广播标准分辨率是720×480,你只有这样才能把这个标准在广播里放出来,如果只有300个线的话根本就放不出来,所以就定了一个级就是所有的电视都能放出来的,我们知道现在我们VCD的质量是352×288,也就是只有288线。当时在电视台广播级用的基本上就是至少要480线,才能把广播级的东西放出来。但是从压缩来说,专家们说即使是现在这种情况,但是我们放眼未来,要做的话就要让家里也能放电视台的标准,现在的DVD机就是这个标准,这个标准是1994年做出来的,1998年又开始增加了这个功能,H.262和MPEG—2是一样的东西,我们要和电视台广播级的视频质量一样的视频会议。因为那边已经做一个东西,我们把它拿来用就好了,我们第一次国共合作,就是两个工作组合在一起,这个做以后,在你那里就叫H.262,我这里叫MPEG—2。这个做完了以后,当时国际电联那里就开始做另外一个版本,在2000年的时候就已经开始使用了,实际上那是第一代,我们叫它“拓荒者”为什么它叫“拓荒者”呢?很多编解码的技术已经有了雏形,但是还没有完全成熟。MPEG—2做完了以后,我们再做什么呢。1994年、1995年的时候互联网还没有现在这么热,要做一个低码率的压缩标准,这时候就定了一个MPEG—4,这个标准也做出来了,只不过花了很长的时间,1996年就开始做了,到了1998年的时候,第一个版本就基本上做完了,但是还没有真正用起来,大多数用的很少,这个做完的以后,突然发现H.263一直在网上做,后来又做H.263+,又做H.263++,广播这边做得比较好。在做完MPEG—4的时候,就开始联合做了。它是在H.26L的基础上做,这个做完了以后是两个东西,在广播里面叫MPEG—4ABC。

  有一点需要向大家声明一下,有一些东西有时候会有很多的误解,我们在做ABS标准的时候,有时候经常会让人哭笑不得,他们说把这个标准拿过来测一测,看合不合格。标准化的对象范围只是语法和解码器,这个东西被标准化了,至于你整个视频的流程,当信号来了以后,首先要进行一个预处理,这些东西是没有标准化的,进行完预处理以后,再进行编码,编码也没有标准,也不被标准化,只有解码器或者解码过程是标准化了的,这个一定是谁都要遵守,如果你不遵守的话,大家就没有共同语言了,这个一定要遵守。后面还有一个后处理,就是有一些错误把它恢复过来,大家可以各行其是,你有什么好的思路,你有什么好的建议都可以往里用。这四大部分里面,其实只有一部分被标准化了,如果我只有一部分标准化你非要测,你对我的标准用这种方法来测试,显然是不公平的,所以国际上没有一个标准化的东西做出来了以后还要请人家测试,这是没有的,有时候我们也没有办法,尽量做一些说明,但是也尽可能做一些配合和测试,但是那个测试结果并不能说明我本身达到什么程度。这个可以通过一些客观的东西能做出来。

  我刚才说的实际上编码器是没有标准的,因为没有标准,谁的编码器能做的好,是由这家公司有多少知识来确定的。我们看这个曲线,在MPEG—2刚出来的时候,最好的编码器要6兆,只能编到每秒钟6赫,到了1995年就已经降到五点几兆了,我说的是最好的编码器,这个就是它的演化曲线,你可以看得出来,随着时间的推移,包括MPEG—2的编码器,已经编到差不多2.3兆了,它一直在进步,但是解码器一直没有动,1994年是那个东西,现在还是那个东西。其实H.264也一样,在2001年的时候,对象标清来讲,到了2003年有2.6兆就差不多,随着时间的推移还会一直往下降。有些人说我们就不要继续做下去了,既然它一直下降,我们就等吧。但是起点实际上是不一样的,MPEG—2还有很大的进化的余地,它已经到了一个水平线了,再往下就比较难了。第二代编码的起点只有它的一半左右了,从技术本身来说,从整个信源编码里面,我们都知道预测编码与DPCM,这是做编码的人第一天要上的课。我们知道世界上第一个视频编码的标准H.120只是一个过渡的产物。人就想去找一些更高压缩能力的工具,第一个想到的就是变换,我们知道变换总是要比预测的时候好。其实这个视频也是一样的,大家开始找我在时域上面找到了DCT是其中的一个,找到了DCT以后,大家开始用DCT来压,我对一个图象扣出一块来,首先进行一个色彩的变换,这三个分量就得到了这样一个结果。这给出了一个亮度的聚变,同时还有一个色彩的聚变。得到了这一个数据以后,我就为它实施DCT变换,下面就给出了这个变换了怎么做的。我要对这个进行重新分配,我们说要进行量化,我下面会讲它的道理。我通过一个量化使得这样一个矩阵就变成了很多零的东西,我们对它再进行一个扫描,把它变成一个算术编码,我们统称信息商解码的方式,这样就对一个图象的变换做出来了。道理在哪里,我们有一个Zig—Zag的扫描,按照刚才箭头指的方向就把它扫描完了,从原点往外,是一个平域分量的值就扩散开了,在整个服务域的四分之一相片就开始变化,从最中心开始变换实际上代表了一个不同频率的参数值,在同一个同心圆上,在不同的表达式里面有不同的因子,这些有相当大的类似度,你从某一个频率逐渐展开到另一个频率的过程。有了这个频率以后,你就可以对它进行压缩了。我们不断是拍电视还是拍视频,现在摄像头对着我,实际上除了我个人在动,没有什么东西在动。这个叫针尖预测,这个也是对我们有非常大的贡献。如果你把这五桢的图象,你把它原原本本的压缩,那就行了。

  当然H.261被称为现代视频压缩的“北京猿人”,里面最重要的一个东西就是刚才我说的DCT、量化、扫描等等都在这里面。图象本身是有亮度的,有颜色的,每一个分量实际上对于整个图象或者视频的贡献是不一样的,我们知道亮底比较大的,我们贡献大的数据挪到另一个空间。因为颜色可能空间比较小一点,我们就给它一个块,对于颜色的空间,我们做了一个四到一的下采样。在后来的H.261和H.263都采用了混合编码结构,并不是一个简单的变换和预测就完了,而是把所有的这些东西都加在一起,这就是H.263和H.261的基本结构。你基于一个原始桢,你可以得到一个压缩率,但是你还可以得到一个更高的压缩,怎么做呢,你这样一副副推下去,也许你能得到的相近的东西更多。所以后来就引用了一个B桢的概念,我可以用一种方式前后参考,只相当于铺桢的一半,这样就可以节省一些效率。到MPEG—1里就M、P、B桢都有了,这是在世界第一个在家电领域里面被应用的标准,在中国的VCD里面第一个被应用,后来扩展到整个亚洲,一共有数千万台这样的设备在运行。MPEG—的我可以把我的东西整个出来,不够288线就可能就放不出来了,基本上是这个思路。

  后来又有一个挑战出来了,因为电视都是隔行扫描的,你可以花的成本很高,如果你的电子箱子每秒钟25到30桢去扫描的话,如果这个东西需要一美元能够做得到,如果翻一倍,就要加一美元,就是硬件是非常高的如果让老百姓能够接受得了,怎么办呢,大家就想出来了一秒钟就放25桢的话,眼睛会受不了。但是如果是50桢的话,眼睛看着舒服,但是要加一美元。像这两种方式,可以通过水平扫的方式,这个后来在MPEG—2当中被引用了,它们两的最大的区别就是这个。MPEG—4里面做了一些H.264,觉得这是一个不错的东西,为什么呢,当时MPEG—4的出发点也是要做在互联网上传视频,但是当时互联网的带宽是波动的,而且带宽也没有那么宽,如果要做的好的话,要做一个高的压缩率,把编码的长体设置成很多不同的平面,对每一个平面单独编码,比如我的摄像头对着我,如果想对景色、景物进行编码的时候,如果要确定一个主体老在动,而后面的背景是永远不动的,他一旦确定了这个以后,就可以做了。在编码的时候,只要把我从背景里面分割出来,只要对我这个人,对我这个对象进行编码就好了,然后把对象传过去,两个一贴这就有了。这样在很低的带宽下也可以做很多的东西,后来想把对象从背景里面分割出来很不简单,实际上你用手去做可以做得到,但是你要用一个程序很完整的分割出来,还是很难的一件事。大家有时候看MPEG—4XP或者AXP,缺了什么东西了,如果在信号里面进行压缩,这就是为什么现在很多的手机电视,比如问你手机电视用的什么标准,是用的MPEG—4还是H.263还是H.264。这是一个基本的积累。

  再下一个版本就是我们现在真正国际上正在慢慢进入主渠道的第二代编码,我们叫门“达官贵人”,这个东西从技术上是非常好的东西,我们的中国专家也做了很多的贡献,是一个非常好的东西。版本到现在为止也比较成熟,在原来的基础上加了一些块,比如说这是新加一些东西,其他的东西以前都是有的。我们看看性能。作为整个信源编码或者视频编码里头的东西,我们说对整个系统我们从算法来说,有四个算法,一个是彩色空间变换。然后是DCT变换,以及我们后面说的扫描、分配等等,这个能得到的大概就是三。再后面是针尖的东西,我们通过引入P、B桢,在第二代编码里面增益是6,我们说运动估计和运动补偿这块东西。最后还有一是信息商编码,要么你用流程编码、要么你用商业编码,我们知道MPEG—3和MPEG—2,这两个标准的压缩倍数都在5倍左右。第二代比第三代性能到了一倍,比如说原来是压到100倍,现在就能压到50倍,主要的差别就是这样的。就是在运动上面有了比较大的变化。我们从这里面得到了两倍的增益,可以通过一个红块把这两倍的增益都实现了。通过变换和重新的分配大概做了3到6倍的增益,通过引入P、B桢也可以做得到。

  为什么第二代比第一代做得更高,实际上主要的原因,这就给出了一个比较重要的说明,第一代和第二代在运动和补偿方面是怎么做的呢?比如这里有一个巴掌大的块,或者16×16的块,是通过整象素来比对的,比如我每次比对完了以后,移一个象素来比对,再移一个象素来比对,整个的编码是通过四分之一象素来比对的,这样就能找到很多以往找不到的东西,但是这样你计算量大了很多,整象素的道理很简单,你把整个的都拿出来,一比对就完了,如果你是半象素或者四分之一象素,你就要把插图出来,对你计算的要求就比较大了。如果简单说,第一代和第二代的主要区别,包括宽度尺寸,主要在运动补偿方向,估计的方向不一样,差值计算的量不一样,在算术编码方面采用更好的编码,从第一代到第二代效率增加了一倍,还要做什么,为什么要这么做,我们做了很详细的分析,它的技术发展是有一个过程的,大部分技术是1985年以前的技术,我们用一个共同的

知识产权就能够构造出一个比较好的标准。基本上就分这三个阶段。

  第二代1995年H.263,是第二代视频编码的拓荒人。

  1999MPEG—4视频,第二代视频编码的“鸡肋”。

  2002MPEG—4AVC/H264,第二代视频编码的“达官贵人”。

  2003MPEGVC—1,第二代视频编码的“独行侠”。

  AVS开始起动,我们参与国际标准是从2002年开始的,为什么要做AVS,主要原因是这样的,我们发现,现在国际标准里面对知识产权的处理非常不合理,第一种是我根本不管你,你愿意怎么做就怎么做,现在中国的一些标准和国外的标准是非常不合理的,你做了以后一旦成为标准了,有人就出来了,我要收20美金,你就必须给,不给我就起诉你。还有一种是不合理的协议,就是合理的非歧视的授权,一旦我这里面用了你的专利,就要签协议,就是你要合理的和非歧视的向所有的用户进行授权,但是这个很难实行,因为操作上很难界定,他可以说我这个协议是花了一美元做这个东西,我算一下,我今后可能会收到多少钱我如果收不到一千美元,我这个专利一算可能要收一块钱,最后把它收回来,你说合不合理,其实也是合理的,但是操作起来很难操作。还有一种是免费使用,就是不收专利费的。我们说这个也有一点小问题。还有一个我们比较推崇的模式就是专利池,这是一个比较有用的方法,如果你在做标准的时候,没有任何承诺,这就有非常高的风险,如果你在做的时候,如果是乱了,这就非常难操作了,如果是免费使用,一开始的时候所有的人就会这样做,但是后面也会出现一些及其少见的例外。专利池你不能事后建立,我们可以很容易看出来,DVD是一个非常不合理的专利收费,为什么,大家可以算一下,现在基本一台DVD机的成本是30美元,专利20美元,专利要占40%,这是极端不合理的。在日本,我问过一些在日本非常年长、资深的人,我说日本人的观念里面,专利费占到多少是合适的,大家的回答说10%是顶尖了,如果占到40%,古时候大家就要造反了。法律上一点漏洞也没有,你可以说它不合理,但是法律上是合法的。现在的H.264我们为什么说它是“达官贵人”,很可能在未来的一天它也会转化那样,我们只是说可能。

  VIA专利池现在已经分离了,H.264现在有17家公司,而且现在的整个授权已经非常明确的说,在2010年以前不会变化。汤姆逊公司非常明确的说不家畜上述的任何一个专利池,很可能最后的格局就变成的17C加上5C,这个虽然是很好的东西,但是在使用上会有很多的风险。现在对于MPEG来说有一套策略,我们可以基本上看出来,关于内容是需要收费的,在收费的问题上将来可能会遇到比较大的问题,AVS正是觉得在2002年的时候,中国的产业遭遇了一些“DVD”,我们不希望将来中国的IPTV等等都起动了,突然冒出来了另外一个这样的事件,我们希望做一个标准能够让他们从中解脱出来,就是这么一个目的,经过一段时间,当时AVS在做的时候在知识产权和专利上花了很多的时间,AVS一共分为9个部分,分子视频、音频、文件格式等等9个部分现在都在做,现在也进展的比较顺利,AVS的成员现在有130个左右,家电企业11%,通信企业12%,计算机和软件44%,这是国内的一些成员,华为、TCL、海尔等等,国际的像索尼、松下、诺基亚、摩托罗拉、飞利浦等等都是知名的企业。我们做了一些分析,如果你把MPEG—2作为1,那么AVS复杂度大概就是6,就是AVS大概相当于H.264的59%左右,在知识产权方面,在大规模生产的时候,可能也会有一些不一样的地方,我们做了很多的测试,H.264和AVS,包括高清、标清我们都做了大量的测试,比以前老一点的标准要好很多,性能比MPEG—2都要好很多,AVS和H.264都是比较好的。我们也做了很多的分析,H.264和MPEG到底有那些差别,我就不一样多讲了。这是在移动上面,中国移动也专门对MPEG—4、AVS和H.264都做了一些测试。

  第三代会从哪里生产出来,我们还在估计,从刚才的表上也看出来了,实际MPEG—4或者其他一些,是通过9倍的复杂度换来了两倍的效率,基本上总的趋势是这样一个趋势,但是从应用上,或者从编码效率以外,还在逐渐扩展,现在有很多研究是在做三维音频和视频的压缩,不是虚拟世界里的三维,是用多个摄像机拍摄的东西,我可以转变很多角度,声音也一样的,基本上在这方面有很多新的研究在做。当然还有一个比较好的消息,我上个月去ITUT,他们有关于下一代视频和音频编码有一个研讨会,把对全世界影响最大的都请去了,我们都同台把自己的东西讲一讲,讲完的以后,大家都觉得AVS提出的问题和解决的问题都是对的,而且我们然为H.265应该在网上做。

  谢谢大家。

  提问:

  AVS这个解码芯片在这个层面上现在做到了什么程度?

  高文:

  解码式芯片现在可能有这样几个方案,目前已经有两版芯片,已经都在进行实验,都是一个公司做的,两个专用的解码时个芯片。用现有的DSP做解码器,现在已经有跑起来的解码器,另外其他几个公司像飞利浦的ST的解码器都有人在上面写程序。PC很简单了,我们现在有一些演示的或者让大家做测试的东西,完全就是笔记本都可以实施的标清了,这个现在都已经做到实验化阶段了。

  中国以往基本上都是采用的拿来主义,比如我们的广电的DVBC,都是用现成的欧洲的,包括现在通过公共卫星转发的节目,都是用原来现成的东西,但是我个人觉得我们现在已经有能力了,我们没有必要再从别人那里拿了,我们将来在直播卫星这件事上,到底是用什么,实际上是可以讨论的。信源当然AVS是一个重要的选项,除了这个以外,MPEG—2也是一个重要的选项。从我个人来看,从卫星传输应该是性能上类似于DVB、AVS等等,这个一定要经过一个发展的趋势,我希望从今年年底到明年年初就可以实现。


  爱问(iAsk.com)


评论】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭




科技时代意见反馈留言板 电话:010-82628888-5828   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网