JPEG也要出VR/AR标准了,我们和JPEG主席聊了聊

2017年06月24日 14:06 青亭网

微博 微信 空间

添加喜爱

JPEG现在几乎已经成为了人们离不开的日常图像标准,互联网上80%以上的图片基本上都是以“.jpeg”结尾的。而随着VR/AR浪潮的到来,JPEG也在酝酿一种适于VR/AR的格式标准——JPEG Pleno。

青亭网独家专访了JPEG标准主席图拉吉(Touradj Ebrahimi)。试图了解JPEG在VR/AR新时代所做出的努力及布局。

 

 

青亭网:这是您第一次来中国吗?

Touradj:当然不是,来过很多次,上次来是去成都。我在中国有很多朋友和伙伴,比如你认识的清华温江涛教授等等。

青亭网:您是视频压缩标准方面的专家…

不,准确的说是多媒体信号处理,不过我的职业生涯是从压缩开始的。渐渐的压缩变得越来越重要,现在你分析的内容都是压缩内容,我们还要理解人类理解内容的这么一个过程,所以我也做很多人机交互、用户体验质量等领域,这些领域都是互相关联的。不过简单的说我是做压缩标准的也没错。

青亭网:所以您目前的新领域是人机交互吗?

算是吧,从2000年就开始了,算不上新,不过我是从1989年开始研究压缩的。

青亭网:所以差不多在第一波VR兴起的时候就开始了,您怎么看待现在的所谓第二波VR呢?

我不觉得现在算是第二波。其实历史并不是完全相同的,VR也不是一直都是VR。3D也是一样,3D其实在19世纪末就出现了,那时候还没有照片这一说,那时候人们只是画画,通过左边的画和右边的画不一样来产生立体效果。

然后在50年代、70年代,以及10年前都又重复了一遍,但是每次都在之前的基础上更进一步。VR也是一样,只是因为现在关注它的人太多了,比如Facebook, 谷歌的YouTube,苹果。

 

 

 

 

青亭网:不过苹果一直都比较神秘。

是的,他们一直都比较神秘,但是这次库克竟然公开宣布了他们在做AR(注:采访时,ARKit还未公布),要以前是根本不可能对媒体说的,他们在以色列有一千来号的工程师在做AR。

现在的智能手机在VR的推动下需要被重新定义。过去50年,最大的改变无外乎80年代的电脑、智能手机,以及现在的VR,所以毫无疑问VR革命是会发生的,这个我很确定,只是会有波折罢了。

就比如PDA(掌上电脑),一开始是索尼开的先河,并且经过了很多波折,现在已经很难想象没有它生活会是什么样子。

VR/AR也是,这个潮流是阻挡不了的,只是有很多挑战而已。

其中最大的挑战还是眩晕问题,这让用户在一开始的兴奋之后就迅速流失。还有眼部压力和畸变,对于这些问题,现在主流的解决方式是用一个或多个摄像头,在2D或3D全景里做360度拼接,但是治标不治本,真正的解决办法在于光场。

这个舒适度的问题一定要解决,如果用户只用5分钟,这个行业是没办法成立的。其实还可以让小孩子从小就用VR,这样就不会产生不适感了,就比如你现在把小婴儿带上过山车,他是不会害怕的,但是成年人就不一样。当然这只是玩笑。

只有用户自然地使用VR,VR环境自然地反馈,才不会产生眩晕。最典型的一个例子,自然状态下,当我们看自己的手的时候,手之外的背景是模糊的,或者说没有被大脑识别成焦点,这些自然的细节我们都要在VR中拷贝才行。

一旦不一样,就会产生反应,只是有些人反应强有些人反应弱,这是没办法改变的属性,就像有些人擅长开车,有些人不擅长一样。

 

 

和3D一样,在一波波的重复之中,有些东西会一直存在并进步,就比如3D电影雷打不动地存在一样,原因也很好想象,因为环境是黑暗的,很好控制。鉴于现在谷歌Facebook等公司砸了这么多钱,肯定不会出现彻底否定现有产品的那天,肯定是有东西能不断衍生和进步。

中国的阿里巴巴投资一掷就是5亿美元,他们肯定是有把握的,或多或少会有些实在的东西。到时候科技差不多到位,苹果这样的公司再设计出良好的可用性,再加上好的生态系统,肯定是不愁用户的。

为什么说苹果呢?因为智能手机在iPhone之前很多年就存在了,但是是苹果让其变得如此易用才让这个行业又一次爆炸式发展起来。其中最根本的原因是其生态系统,App Store, iCloud之类的服务,无缝转移到其他的苹果产品上。

所以我认为,第一个最成功的VR产品,一定是能增强现有的生态系统的产品,可能是微软、苹果,或者什么新公司。

 

 

青亭网:中国的一位CEO说H264, H265标准都不能满足VR的要求,你怎么认为?

我同意。这两个都是很好的视频压缩引擎,业内公认,但是它们压缩的视频不是典型的VR视频。

目前最大的问题是三星这样的公司,他们现在的产品不到100美元,也没有长期的利润打算,对于客户来说,比买一个手机要容易的多,并且他们使用起来经常让人失望,是因为所有的内容都是3D捕捉的图片、视频被贴进一个平面上

并且,现在很多短期的VR开发都受到了三星这种风格的影响。三星现在就用那种小的投影,立方体,锥体……我们都试过了,没有一个行的。基本上可以说,只要是把立体投影到平面上这种做法,都是不可行的,看五分钟就烦了。

如果你真的想要真正的VR的话,只能用全光呈现(plenoptic representation)。它在数学上其实很简单,每一个指向空间都能向任何方向发射或者反射光线,在不同的接收位置会接收到不同的值。数学上讲,它是个七维空间,也就是基本的三维,加上时间和空间,以及这个值,如果忽略时间这个维度,再做一些假设的话,就能将其简化成四维空间。

来跟我想象一张图片,由像素组成的图片,现在我们从不同的位置看它,得到的值是一样的。如果把它想象成从不同位置看看到的东西不一样的超级图片,就是我们说的全光(plenoptic representation)。

青亭网:这就是光场吗?

不是,光场是它的实现手段。它是打造这种全光(plenoptic representation)的其中一种方式,还有别的方法,比如在一个3D空间内创造一个点类,并且让这个类里面的点十分密集;还有在平面上加上材质。所以不止光场这一种方式,甚至在未来会用全息图像,这可以说是最终极的手段。

现阶段,数学方面已经没有问题遗留了,现在的困难在于,如何打造一个可以以全光呈现捕捉整个房间空间的设备,捕捉到每一个点。理论上可以在每个位置都放上镜头,但是这是不现实的。

如何打造一个单独的设备,来捕捉整个房间的全光展示,这是个价值百万的黄金问题。现在也有不少公司在尝试,比如Raytrix等公司,还有公司说这种做法不可行,得用深度玻璃材质,英特尔的RealSense就采用的是结构光。

青亭网:但是我采访过另一位CEO,他表示结构光是很不好的方法,有三个主要原因,一是设备太庞大,二是精度低,三是不能在户外场景下使用。你怎么看?

 

 

我同意,结构光只在近程工作。英特尔就是用摄像机一个提供深度,一个提供材质,然后在很近的距离内重新呈现虚拟和现实环境,这在AR上其实是适用的,毕竟距离不会太远,一两米顶多了。一旦远了精度就会很低,因为传感器就提供不了很好的样本。并且户外还有很多干扰。

青亭网:那你觉得TOF (time of flight)解决方式如何?

这也是一种方法。现在有一派意见认为,你需要Kinect那样的深度捕捉,以及材质捕捉。另一派意见表示,并不需要捕捉深度。只需要两个镜头就能进行深度捕捉,比如现在的苹果手机和华为手机,镜头越多越精确。

现在没有时间一一讨论细节,因为现在为了呈现全光展示(plenoptic representation),行业探索了太多太多技术。坦白说我不知道哪个会最终胜出,我也不觉得现在有任何人能预测哪个能最终胜出。也许最终会有那么两三个技术成为胜利者,但是无所谓。反正,要把现在的VR和AR发展成为真正的虚拟现实和增强现实,一定必须改变最根本的呈现方式,必须达到全光呈现。

如果不是全光,你的传感器就会受到太多互相冲突的信号,尤其是视觉传感器。因为人体对不合理的3D反应太大,眩晕呕吐什么的。电影院里之所以还好,是因为捕捉投入很大,并且观众至少知道屏幕边界在哪里,以及周围的观众在哪里,所以反应不会那么强烈。

所以现在的3D,或者2D 360度,全都是短期内的概念,我并不是说它们不好,我只是觉得,它们确实会埋下一定的恶果,在以后会给我们行业以打击。就像现在三星这样,如果很多消费者尝试之后有不适反应,他们会把这方面的产品排除在外,以后可能就不会再尝试了。

 

 

就是你们中国人说的:一朝被蛇咬,十年怕井绳。这就是我现在担心的东西,现在太多公司在推行很不成熟的VR科技,会对我们的未来有不利影响。

就比如当时的VGA相机,科达发明了这种化学相机,但是却忍住没有在上面投大笔资金,反而投给了当时成像效果不如VGA的数码相机,花费了很多年。当时很多人说科达很愚蠢,实际上却不是这样。现在的VR就像当时的VGA相机,这其实挺危险的,会让我们的消费者认为,VR就是这样了。

青亭网:那你认为可以用极系坐标来定位数据吗?

不能。你指的是摄像头把空间当成球体,然后做出这个球体样本,用极坐标来定位。这样可以,但是不够好。因为你会接收到每个像素在每个方向上的值,无论是计算的还是估算的,这些值最终被接收的时候会产生冲突,甚至头疼恶心等反应。

这还是把一个球体样本map到一个从不同方向上看得到的信息不会产生不同的东西上,所以不会有什么本质区别。我们人体太敏感了,我们只能接收那些我们在真实世界接收习惯了的视觉信息,我们的大脑已经习惯了。

真实世界中,我看着我的手,手移动的时候,我看到的所有的点的值都发生了变化,一旦VR里接收到的值没有发生变化,就会产生冲突。

青亭网:所以你觉得现在的HTC Vive体验够好吗?

呵呵,不觉得。我们需要的是在VR世界重现和物理世界一样的视觉体验,注意是一样的。现在很多VR体验,Vive,Oculus, PlayStation之流,只要你尝试下近距离看一个物体,然后背景还是清晰的,那我的大脑不服了。

我们的大脑从视网膜到中枢,会过滤很多很多东西,因为进化让我们能够专注。可能未来我们的大脑工作方式会发生变化,但是毕竟现在是这样。所以我们需要全光呈现来完全模拟物理世界,可能通过光场,可能通过别的什么技术,这是我们行业不可避免的途径。

标准不应该掌握在某一家公司手里,而应该是一个国际组织

 

 

青亭网:你认为VR需要一个标准格式吗?就像图片的JPEG一样,OpenXR等公司就在做VR标准化。

JPEG其实几年前开始了一个活动,正好是关于全光呈现的压缩。数字电影院用的是JPEG 2000,球赛等活动是用JPEG 2000捕捉,然后发送给视频工作室,最后给消费者观众的是MPEG格式。

总之,MPEG是面向普通消费者的,JPEG只有在图片格式上是面对普通消费者,视频上是面向专业人士的。在专业上面,数字电影院是不会在质量上进行妥协的,他们愿意花钱购买更高的贷款更好的摄像机什么的;而消费者则需要在根据价格的已有资源下做到最佳质量,所以JPEG格式在前者上很成功,MPEG在后者很成功。

现在我们用特别厉害的360摄像机拍高质量视频,然后必须压缩到一帧画面里面,滋生出各种畸变,很多数据就消失了,然后我还得再map到一个球体上来修复这些扭曲,这种前期处理和后期处理就是MPEG做的。但是我们的消费者觉得最后得到的东西质量不够好……

青亭网:所以你认为搞这些压缩对VR行业不利?

在现阶段,是的。现在最根本的问题不是压缩,是representation(呈现),这个搞定了再谈压缩。

青亭网:所以我们会有这些格式吗?

 

 

光场其实不只是用在VR上,它的应用范围很广,比如影视制作。JPEG的标准化就是让它可以被用来做很多事情,不止是VR。我们确实需要它,JPEG就是在为专业人士将它进行标准化。

有些人很确信光场就是VR的解决方式,我只能说我希望是这样,但是我并不确定,它是很多别的问题的解决方式,但是VR的话还不一定。还有些人认为,光场在站起来走动的时候就不行了,他们认为点云(point cloud)是更好的解决方式, JPEG其实也在研究Point cloud。

我们想要的是这些让这些解决方式之间再没有区别,现在有JPEG Pleno这个格式,和JPEG一样,点击文件之后JPEG解码器就给你一个图片,如果用JPEG plane解码器,你会得到一个3D环境。让我们想象一下五年之后,我用不知道什么设备拍了个文件发给我的朋友,如果我的朋友只有老的JPEG解码器,他点开来看会是一个图片。

如果他有新的JPEG解码器,他就能在我传送的空间里走来走去,这个空间是用的点云还是光场都不重要,这就是标准化。JPEG永远不会做的事情就是让用户操心这些技术问题。制作JPEG的技术多种多样,反正都是.jpeg文件,不用管之前是单层图片还是逐行扫描,用户才不关心这些。

青亭网:你认为所谓的点云是不是属于SLAM技术?

是。其实过去计算机图像科学家们很看好mesh(网状),但是随着计算能力的提高,我们可以有点云。现在计算机图形的方向大量转移到了点云。

青亭网:你可以介绍一下你们在人机交互(man-machine)方面的研发吗?

当然,这个对话的走向很正确,因为点云非常非常适合手势。虽然我是做人机交互的,但是我没有怎么涉足手势识别。

我认为人机交互里很重要的是情感,情感对体验很重要。过去有很多研究,从人的表情和语言上面提取这个人的情感,给被试者听音乐什么的,来观测搜集他的情绪反应。

这也可以在用户界面上使用,无论是多媒体用户界面还是和机器人、电脑交互。机器人需要能判断你的情绪、困惑之类的,才能做出反应,解决你的困惑。很多时候,尤其是在用户刚开始使用的时候,十分重要。

 

 

一开始需要很慢,很有趣,用户才会学习,然后一定阶段之后如果再慢,用户就是不耐烦。所以机器人需要知道什么时候用户会不耐烦,并做出相应的反应,提高速度什么的。我在人机界面上的研究其实是这个方面,专注体验质量。我研究了一些工具来评估用户的情感和幸福状态,来更好地和他们交互。

上面提到的点云和光场也可以被用在人机界面上,只是我没有用过。

青亭网:那么你用上什么科技来甄别情感呢?脑电波?

我们是2000年就开始研究的,一开始是用EEG做到80%正确率的喜欢和不喜欢的识别。当时的问题是EEG不实用,要在脑袋上戴一堆东西。要让不同的传感器接触到你的头皮……戴上这些传感器需要15分钟。

大脑里的行为也很有趣,因为大部分情绪的电波不是在于发射神经冲动的某一小片区域,哪里活跃性比较高,而是在于同步,要找到是什么在导致什么活动,就这一点我就有5个Phd学生在做。但是脑-机交互界面并不实用,原因上面说了。

我们近两三年在做的是,有没有什么外围设备可以做这些东西,比如智能手机、智能衣服什么的。除了大脑之外,还有没有什么地方可以采集神经学和心理上的信号。我们做了皮肤传导、皮肤温度、心跳……

青亭网:面部识别呢?

面部追踪可以有,有人做,但是我们没做。因为面部追踪也不实用,需要摄像头,你不可能一直都有个无人机什么的绕着你跑。但是五年之后每个人都会有可穿戴设备,这些设备可以提取一些用户的生理数据,这些生理数据除了健康之外,还可以是情绪。

最近我在研究的是这些外围信号能不能和脑电波一样提供足够的信息量。结论是如果做多个设备和数据源,也就是multi-modal,就可以望其项背,虽然不能打败脑电波。脑电波的数据占70%到80%,multi-modal的做法可以达到70%。

所以我虽然还有在做人-脑交互界面,但是更多的是专注外围信号,愿意很简单,就是五年之后到处都是可穿戴设备,为什么不利用这些外围设备呢?

青亭网:这算是感知心理学吗?

 

 

我虽然用了很多心理学的成果,但是这准确来说不是我的领域。我们做的是信号处理算法,使用他们提供的心理模型,他们说某某某环境下会发生什么什么事情,比如人有讨厌的情绪的时候,神经水平上会发生什么什么,大脑里的认知部位的活跃度会增加。

我们也测量过这些,所以我们也做过他们的工作,但是只是为了更好的理解。我并不是个神经科学家。

青亭网:你认为标准大战会在VR领域展开吗?

这是个好问题。我不能预测会发生什么,JPEG弄出了个开源的标准的算法,所有人都可以用,有人用它做软件,有人用它做硬件,有人自己来扩展它。

我认为VR行业中,开放标准需要完全免费,没有授权之类的,没有专利,然后软件硬件商把它作为基础来互相竞争,用户在选择的时候也更自由,想换就换。

我认为这应该是我们的方向,不仅是VR,那些做API的人,基本就是在做隐形的标准,这就是去标准化,因为标准需要来自于国际化的、中立的机构,而不是每个开发API的人都可以,谷歌、Facebook、微软等等都不能掌控它。

标准应该有整个社区来制定,ITO, ISO,IEEE什么的。然后单独的公司可以开发API,然后开源,无论是免费还是付费,使用者都能完全拥有这个API,而不是有专利和背后不为人知的什么标准。

对一个国家来说,VR领域有活跃公司是非常重要的

青亭网:全光呈现实现的难度大不大?

全光呈现没有那么有挑战性。还是说JPEG,现在的图片的基本呈现方式是一个矩阵,矩阵里每个元素都有个三个值,红绿蓝,每个值都是8字节,有时候是10字节,有时候12字节。因为它太复杂,JPEG搞出了一堆东西来压缩它。

VR中,我们需要有那个矩阵一样的基本呈现方式,很困难,并且可以选择的技术很多。我们不是要发明什么东西,这些东西已经存在了,我们要的是大家都同意这个基本呈现方式,如果它数据量太大我们再压缩。JPEG八月的时候会告诉我答案,现在有17个提议,只有一个会被他们认可。

所以JPEG做的并不是很有野心。WebVR说的是要把万维网变成VR体验,这有野心多了。我希望他们成功,并且如果他们要花10年才能做到的话就太晚了。

青亭网:你怎么看谷歌的Daydream?

 

 

其实Daydream和Vive之类的并没有根本的区别,就是比三星Gear好点儿,什么东西都比三星Gear好!我觉得Daydream和无线的HTC Vive都差不多,谷歌还有很大的提升空间。

从我的看法,根本上还是没有改变。可能会改变的是谷歌旗下的YouTube,YouTube在VR上面非常激进,不过他们还是在做一样的事情。

青亭网:回到标准这个问题,谷歌的Daydream鼓励了很多安卓手机品牌比如小米,加入VR的市场,你怎么看?

我觉得这很好。但是单个公司还是不能自己建立标准,公司的价值是为自己的持股人创造价值,公司其实并不为消费者做什么。所以单个的公司不能掌控标准,标准需要属于中立的势力。谷歌微软都在做自己的标准化,但是这还是我们的希望。

很多国家和洲也对这些搞自己标准化的大公司很警惕,比如欧盟,因为这不利于竞争。有时候政府会介入,10年前微软就被欧盟威胁说要指控他们,罚款20亿美元,并且必须要标准化开放Office。我觉得如果谷歌够聪明的话,他们也会这么做。

青亭网:很多中国的创业公司很困难,他们很难从市场中获利,很难满足VC,你能给出点建议吗?

这很正常,新技术出现的时候都是这样,大量早期炮灰。

青亭网:我想问的是,现在这些企业家介入会不会时机太早?

不会。我也给不出最好的时机在何时,我只能说,迟到比来的太早要好。从单个公司的角度来看,确实可以说太早太晚这个问题,关乎存亡,科达在数码相机上就晚了。

从生态系统的角度来看,对于国家来说,有一堆公司活跃在VR上是十分重要的。公司会消失,但是生态系统不会消失。我对单个公司并不能提出任何建议,但是对整个国家来说,有一个活跃的生态系统极其重要,一旦晚了就彻底晚了。

标签: VRJPEG标准

推荐阅读
聚焦
关闭评论