沈向洋:人工智能和人类智能是两方面的研究

2016年01月17日 11:59 新浪科技 微博
微博 微信 空间 分享 添加喜爱

  新浪科技讯 1月17日上午消息,未来论坛2016年会今日上午召开,微软全球执行副总裁沈向洋参与年会,并发表题为《人工智能最新进展之机器视觉》的主旨演讲。

  沈向洋介绍了人工智能和人类智能的不同,他认为这是两个方面的研究,一个方面是叫做所谓的感知,另外一个方面是所谓的认知。

  在沈向洋看来,人工智能里面最重要的一个分支实际上是机器视觉,并和大家分享了机器视觉的发展历程。(徐利)

  以下为沈向洋的演讲全文:

  大家早上好,非常高兴有这样的机会来这里跟大家分享一些技术方面的最新进展,刚才沈南鹏给我留了太多的时间,我借用他的几分钟回应一下他刚才讲的计算机教育的问题,沈南鹏讲得很对,各个方面的全能教育啊,邓锋也提到了,我强调一点计算机的重要性,我讲的一个概念,就是(英文),我们这个时代的话不仅仅是最基础的科学是数学物理,计算机的话,是变成一个最最基础的基础。为什么斯坦福大学新生里面有一半的学生进了大学第一年去学计算机是有道理的。(英文)。

  今天我讲的题目是人工智能的最新进展,人工智能发展到今天实际上已经有超过50几年的时间,人工智能里面最重要的,其中一个分支实际上是机器视觉,我自己比较幸运的是过去25年一直有机会在这个领域里边做了一些工作刚才大家也讲到了爱因斯坦的相对论一百年,实际上的话计算机是视觉的话今天是150年,当年大家把当年的麻省理工的一位教授问他学生的一个问题作为计算机视觉的开始,像爱因斯坦讲的最重要的是问问题,我一直跟我学生讲做科研的话有三个层次,一流高手提问题,二流超市解问题,三六高手抄问题,抄一抄也是很不容易的。今天大家都说做人工智能,人工智能这件事是相当于人类智能,人工智能和人类智能相比,这是两个方面的研究。一个方面是叫做所谓的感知,另外一个方面是所谓的认知,就是说(英文)。真正要把人工智能做到像人类智能这么好的话,首先是要做感知这个方面,就是说比如说像(英文)这样的。然后你真正要做到智能方面,做到认知,首先是(英文),所有的这些方面结合在一起,(英文)是一个很有意思的领域,因为是一个交叉学科。其实不仅仅是计算机学科,也有心理学、哲学、社会学等的问题,越来越重要的,实际上是脑科学的问题。

  今天给大家简单分享一下计算机视觉方面的进展,首先我想给大家看一张图,所谓中国人讲一图胜千言。大家随便看看我一个同事去中东旅行的照片,一千个字的话讲不清楚这个图里面是什么东西,某一个方面可以看到不一样的,可能有一个很有趣的故事在里边。就算你能够人工智能,计算机视觉识别到了很多东西,这张图是什么意思的话,我们自己也不见得知道。

  我想今天很短的时间给大家把整个这一个计算机视觉这件事的话,或者是说机器视觉给大家分类,讲讲到底我们今天已经到了一个什么样的境界,过去这五十年来,大家不外乎做三个方面的问题,一层一层的层次高,首先是图象处理的问题,线条怎么样,彩色怎么样。最近这几年的最火的是做图象识别的问题。真正我们做计算机视觉的人,往前走人工智能,需要做一个图像理解的问题,今天我们讲识别这件事已经是取得了巨大的进展,特别是最近四五年,图像理解刚刚起步,虽然已经做了五十年,但是仍然有很长的路要走。

  图象识别可以再继续细分,分成三个主要研究员做的问题,第一个是所谓的分类,给你看一张图,是不是有一个小孩,有没有一个狗,有没有一个碗这样的问题。另外是这个碗在什么地方,小孩儿在什么地方,然后再聚焦,就是说所谓的能不能去每一个象素级别,或者是少象素级别的话到底在哪里,这三个方面的进展是非常的神速,对我自己来讲也是一个很大的这样一个,应该是一个(英文)。因为即便是15年以前的话我们看看这个方向,计算机视觉这里的进展都不是令人鼓舞的,四五年前我们只能测几类的物体,特别是人脸,车,做了几年没有做下去。但是这是现在的结果,这是室内,可以真的把室内的物体可以给你分得很清楚。冰箱在哪里?碗在哪里,甚至可以告诉你百分之多少的概率是这个东西在什么地方?但是也有室外的,刚才也提到了百度自动车,都是要看到这个室外的环境下,甚至是运动的环境下到底边上的人、狗、车、不同的东西到底怎么样可以检测出来。

  今天我们可以做到相当准,就是这样一个结果。大家可能会问为什么我们今天可以做到这样一个结果,实际上最后是三个原因。就是围绕着两大一精,一个是大数据,一个是大计算,还要有精准算法,最近这几年随着移动互联网的发展有越来越多的数据,越来越多的CPU、GPU,FPA,越来越做很大的(英文),但是还是远远不够,继续做这样的增强的功能,这里还是最了不起的一件事,可能我自己做科研这么多年做惯了,觉得说真正点睛之作的话还是了不起的根本性的算法,就是这样的(英文),大概四年前左右的话这件事出来的时候,我觉得很震撼,所以我们很多研究员做这个方面的话,有很多的这样一个新的结果。实际上很简单,大家在座对这个人工神经网络的话,有一个大概的理解,有一个(英文),大概以前就只能这样做了,三层的话就是做出来了,这个周边的话就是做一些,这里有一个人,这里有一个狗,多弄一些数据的话,就好了,但是以前做不动,这个结果的话就是很好。2002年的时候,出来一个(英文),当时用了八层的深度的,已经觉得非常神奇了,可以做到这样一个结果。在2014年的时候又出来了19层和22层的(英文),非常厉害,出来的结果马上把这些误差率降得很多。

  今天我在这里很高兴的跟大家讲微软亚洲研究院在北京的同事的团队做了最强的结果,152层这样的(英文)。这是一个什么概念呢?看概念就要看半天,那么多层的东西,之所以难做是因为没有很好的方法去做,是没有那么大的预算的能力,甚至是没有那么多的数据去做这件事。今天我们一个最新的这样一个算法的话,在这里没有时间去具体解决,可以网上看结果,文章已经发布了。做出这样的结果好到什么地步呢?这里可以随便举几个例子。

  比如说讲到不同种类的动物、鸟之类的,很多我都不是很清楚的,计算机已经可以说,这个是哪一种鸟,计算机比你做得好,就是有这样的结果在这里。

  那么在这个实际上突破是去年二月份的时候,当时我们突出一个结果,误差率第一次比人类在这个识别一千个数据类的误差做得更好。当时是斯坦福一个学生做出5.1,就是人自己去训练一下以后,还是斯坦福的博士生是5.1%的误差率,当时我们2月份做到了4.9%的误差率,当时没有152层的超深度的神经网络。这么多年的,这么多的人,做了这么多年,特别2012年开始结果是越来越好。今年非常高兴的在这里给大家报告我们中国研究团队做到了152层这样的,对他们非常满意,打败全世界所有的人,3.5%的误差。个我自己觉得非常高兴,也非常的激动。当然了也是很应该的,一定可以做出这样的结果。

  很多的计算机视觉的结果,在微软公司,我们有很多的产品里面都是用到了,比如说你图像的管理系统、搜索(英文)等,人脸的话刷脸就可以了,这是微软最近推出了微软小冰的聊天机器人。最重要的一件事,我一直是觉得今天我们做人工智能,做计算机视觉,语音识别做到这个地步,随着这个互联网,甚至是物联网的发展的话,数据将会越来越多。最重要事情是我们想到帮助这些研究人员,开发者也好去所谓的(英文),你的数据到了云里边的话,怎么样从里边做,加上很多的(英文)在里边。我来讲的话最重要的是应该是设计一套东西,我们在微软叫做牛津计划,能够(英文)。

  这里简单的给大家介绍一下牛津计划的这样一个发展,这最初的目的是建立一个智能的云。你任何时候,有任何的数据都可以copy这样的简单的API就可以做包括计算机视觉方面,包括计算机语音方面,包括了语言方面就有很多的这样的一些非常好的结果,可以做到,大家可以试试。当然了,我们也做的几个小系统,主要是应用这个计算机视觉可以做到一个什么样的地步,前不久都试过这样一个系统(英文),你上去上载一张你的照片的话,可以告诉你年龄是多大,这样的很有很多的(英文),其实非常简单,左边给大家看看,为了写这样一个APP的话,这样一个网站的话,只要写十几行程序就够了,现在有(英文),结果非常好。当你可以讲到说我计算机视觉是不是可以已经做得很好了,这里给大家看看结果,我希望这个郭德纲他们不要很生气我的展示。我把这张照片放在我们系统上去以后,说林志颖36岁,看起来蛮年轻,老郭51岁,这张照片照的时候两个人都是41岁,可以看到很多时候大家用了这样的系统很不满意。最近我们还推出一个系统,就是说下载非常多,你可以想到类似这样的美图秀秀的效果,里面有很多了不起的计算机视觉在里边,两个礼拜两是苹果里面最火的APP,这些不算什么,最主要的技术而已。最主要的是说图像的理解可以做到什么样的地步。今天因为时间的关系,我们可以讲得更细,我想强调一件事,最近很多的科研做一件事,做一件事是一张照片来了之后,能不能给我解释一下这张照片到底是什么,甚至是以后能不能有一个(英文)在里边。我们最近做了一系列这样的结果,文章在网上发表,大家可以看到,首先通过图像处理的方法,能不能(英文),把这些拼在一起用自然语言的方法去做,像做搜索的话在做一个(英文)。这样的结果,这个照片出来以后,这个不是多么的让人感兴趣,还可以做视频也是做得很好,实际上有很多的比赛。我们可以在每一个比赛项目可以拿到冠军。但是结果不是很有意思。所以这是为什么我们最近把这样的一些技术的话,就是说集成到微软小冰这样一个聊天机器人里面去的。像这张图,如果做计算机视觉的话,图中两只猫,一只是什么,另外一只是什么猫,但是和聊天机器人交流,当然是从人类智慧学习出来的,这些小词太犀利了,再讲另外一个例子,爸爸和儿子在一起,非常了不起,这样给大家秀一下锻炼的这么久以后的腹肌,大叔真努力,计算机视觉从图像来做的话根本做不到这个效果,只有通过人类的交互方法的话不断的学期,到底是怎么样的图像理解。

  因为时间关系,不能跟大家再展开讲很多的东西,这里有一些微软的牛津计划,还有一些系统是你和另外一个比比到底有多像的一个(英文),最近最火的是微软小冰,希望大家没有试过的去试试。还有两个礼拜前推出来的(英文),如果有苹果的话,可以马上的可以试一下。

  最后人工智能的话最近这几年是最火的领域,我们真正走到人工智能的那一步的时候,哪怕只是说机器视觉这样一个分支里边,我觉得就是说还有漫漫长路,今天我们在(英文)这里做得相当不错,而且非常有信心,接下来的几年,语音识别和视觉识别做得可以和人一样好。但是离开认知,离开真正的智能的话还有很长的路需要走,谢谢大家。

推荐阅读
聚焦
关闭评论
原创策划

风云榜

科技年度风云榜即将启幕!

科技年度风云榜即将启幕!

我们希望寻找过去一年中,那些敢于创新、冲破隔阂、迎难而上的弄潮儿们。 [详细]

科技一周精选

人民币基金:剽窃是常态

人民币基金:剽窃是常态

当创业和投资以一种无比火热的姿态推进时,太多问题被掩藏在速度和规模之下。 [详细]