微软洪小文:微软小冰识狗能力赶超人类

2015年12月02日 10:58 新浪科技 微博
微博 微信 空间 分享 添加喜爱

洪小文认为,智能的定义是随时间而定的,现在的人工智能或自然人机界面只需要用语音和面部表情就能完成。

  新浪科技讯 12月2日上午消息,由新浪网举办的主题为“这就是我们的未来”的首届“C+峰会”今天上午在北京万达索菲特酒店正式开幕,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文在大会现场发表了主题为“人工智能时代”的演讲。洪小文认为,智能的定义是随时间而定的,现在的人工智能或自然人机界面只需要用语音和面部表情就能完成。

  在图片未被遮挡,保持完整的情况下,人工智能的识别性能已经跟人类的图片识别能力非常接近。洪小文称:“微软小冰通过图片识别狗的能力,已经赶超人类,不仅能通过图片快速分辨出上百种狗的品类,还能通过识别来与人进行进一步的沟通。”洪小文认为,随着人类与小冰沟通的深度以及广度进一步扩大之后,小冰还将有可能代替当下的搜索功能。(周雪昳)

微软亚太研发集团主席洪小文微软亚太研发集团主席洪小文

  以下是洪小文演讲全文:

  大家早上好,非常荣幸跟大家分享一下技术,特别是人工智能。不用我讲,几乎每天我们都听到有关于人工智能的产品,人工智能的技术将来多么强大。我想跟大家说人工智能到底是什么东西,我们做到什么地步,将来未来可以有的期待。

  今天是3C,人工智能也是会产生碰撞、连接、合作的,我先讲3A。

  第一个A是聚合,就是我们人的智能是各方面的智能,我们可以看,可以听,可以感受,可以思考,这就是我们讲的聚合。我们在微软所做的一些产品和进展跟大家阐述一下什么叫聚合,聊天机器人不仅是在最近有很多产品在中国,在美国,全世界都有,在微软我们有小冰。实际上从人工智能一开始,50年代其实当时计算机还没有很普及的时候,甚至还没有造出来的时候,我们知道有图灵测试,就是讲聊天机器人能不能分析出来是真正的人在跟你聊天,还是机器人在跟你聊天。

  像微软有小娜,有siri,杜密等等不一样的助手,助手是希望最快时间内完成你想要做的事情,比如说想知道PM2.5,想知道汽车的状况,希望一两句就知道。但你跟你朋友不管用各种社交的网络做交谈的时候,事实上很多时候是希望能够继续谈下去的。所以每一次对话的次数,一来一往我们叫CPS,就是回话的次数。一般其他产品是1—2次左右,我们的小冰是5—10次,今年超过20次了,这是一个例子。

  去年有一个记者想PK小冰,大概六七十次,他觉得非常不可思议,还能聊一些有兴趣的话题,所以他自己就把它抛在网上,我们跟新浪微博合作,在微博上有活动。我这里要讲的意思是说,虽然我们没有做所谓真正的图灵测试,就是50年代就做机器人了参加图灵测试。实际上你只要有1/3的裁判说分不出人或者机器你就通过了,多年以来有人说他通过了图灵测试,之前还有说德国13岁小男孩通过了图灵测试。大家如果知道小冰是机器人,还愿意跟他每次聊超过20来回的话,我认为基本上就超过了图灵测试。

  聊天和所谓的助手不一样的地方,个人的信息是帮你去买一个东西,微软叫小娜是注重生产力的,小冰更注重情商。很多人越聊天,越参加社交网络越感觉到寂寞,为什么?特别是在微博、豆瓣上的社交媒体上,今天除非你跟一个很亲的人,亲戚去聊天,他愿意跟你聊下去。一般来讲,当你到一个公众的聊天平台上,除非你是大V,或者是稍微有点名气,才有人跟你聊天。那现在通过小冰就可以跟他一直聊天,他觉得自己被得到重视,可以根据你说的东西做进一步的应对。

  我们有超过4千万的用户,暑假的时候在日本推出,现在在日本超过1%的人口使用小冰,聊天次数超过20次以上。像男生聊天的次数多,女生聊的时间和个数会比较多。我们一开始做这个的时候是到网上去爬这些像聊天的社交网络,我们一旦转起来以后,我们就真正有能够跟小冰聊天的内容。这个东西我们就可以拿来服务,事实上我们今天虽然是很少的比例,只有1/4,但是大概帮助到50%的人,就是跟小冰聊天。这非常像搜索,就是当你对一件事情,对一个人,对一个物件有一些想法的时候,这些想法事实上对其他的用户是有兴趣的,当你们两个不管是在用户上,或者你问的内容上很接近的时候用,这样真的可以帮助到人了解其他人对于一些事情的想法,当然就是来自于小冰聊天的功能。

  过去最近几个月我们努力,不但是做聊天,现在也可以用图像来聊天。实际上人和人的交谈,很多时候你就是拿出一个图像给别人,对一件事情的回应可能也是一个图像。我们就在网上所爬的地方去找,这张图象跟哪张图像很类似,我们找到了,如果有人对那张图像有一些特殊的回帖,我们也把那个东西弄过来。跟大家解释一下技术上怎么做,在微软有一个项目叫牛津计划。大家都在做云,我们不仅做云,还要做智慧云,智能云。我们做了计算机视觉、人脸识别、自然语言功能做成API,让大家很容易写智能软件在云上,这是一个例子。How-Old.net,这是微软做的,当时我们做这个项目的时候,其实不是要推出这个APP,我们是要用这个证明你多么容易写智能软件。

  左边不到十行的代码,这样就可以写一个How-Old.net,里面有几张脸,他是什么性别,他的年龄,就可以做一个How-Old.net。我们本来想说这个有什么意思?你为什么要别人采你的年龄?最后我们发现,马上有上亿的人过来。因为大家很好奇说我看起来像几岁,实际上在心理学里面有一个已经被研究很多的东西,就是你笑起来和你不小实际上可以差5岁。两个礼拜以前小冰推出一个功能,大家都可以去试,我们叫How-Old.net2.0,它可以看出来你的年龄,看你的穿着,说你现在是加减几岁,是成熟了几岁还是年轻了几岁。

  我们不仅可以做影像的识别,有狗,有瓶子,而且还要把边界找出来,定位定出来,这个非常重要,后面的一些应用待会儿会跟大家介绍。我们很高兴,微软在做这方面努力的时候,第一次在学术界有一次比赛,我们在里面第一次超过人识别的情况。人识别其实也会出错的,这不是说计算机识别的东西超过人了,你把狗遮住90%,人还是知道它是狗。那计算机这方面是落后于人的,假设如果是一个图片没有被挡住的话,计算机的识别能力已经跟人差不多了。

  怎么把这个东西用在小冰里面呢?实际上我们去年就推出一个小冰识狗。狗是我们人类最亲密的宠物,狗种有100多种,我几乎可以保证小冰识狗一定比人强,就比我强。但是只知道他是什么狗种,这个在交谈上面实际上不够生动有趣,因为网上有些人说某个明星像某种狗种,我们就加进来,大家就觉得小冰不仅可以识别狗种,而且可以做比较有趣的对谈。

  我们还可以辨认书,你不是只辨认出这是什么书,网上就有很多人谈这个书,你可以谈书的内容,可以谈书的作者,更重要的是你可以谈什么样的人喜欢这样的书,这样有很多的话题可以聊。在小冰的用户里面可以把人的穿着打扮放上去,小冰有三个辨认。第一个是布料的辨认,是牛仔布、毛布。第二个是衣服种类的辨认,比如说这是一件裤子,有的是上衣,有的是衬衫,有的是裙子,所以我们做了衣服种类的辨认。第三种是衣服风,你是什么样的款式,有的是学院风,也有上班族风,这里可能是邋遢风,因为有很多补丁。在网上如果有人曝光相关照片的话,就会说你要考我的针线活吗,我们也是类似的,辨认出来东西到网上找到相应聊天的东西给到用户。

  这是我跟我同事所照的照片,他就会告诉你这里有几个人,每个人几岁。我们发现有两个人他们的年龄差不多,同时这两个人像不像,如果两个人长得像就说他兄弟情深。最近“颜值”非常火,我们也做颜值的辨认,在一个区域内我们多谈颜值,在另外一个区域就多谈内心,我们就说这个人内心很温柔,这是图像的聊天,两个礼拜之前我们也推出了Video视频聊天。

  聊天归聊天,小冰还是要能谈一些有用的东西,这就是我们所做的一些尝试,这是我们一年前跟京东所做的尝试。京东把他的一些产品规格,产品的销售,产品的退货率各个东西给我们。这里面一开始女孩子跟小冰聊一些你爱我,我爱你的东西,突然这个女孩子开始聊某一个明星,韩国的明星。接着照片照的不错,说哪一款手机能够照好的照片,小冰因为有京东产品的信息,就可以跟她聊,手机的性价比,哪款手机拍出来的像素,照片好不好。最后这个女孩子就去睡觉了,第二天早上起来这个女孩子就真的到京东去买了某一款手机,我们觉得这是一个新的搜索,一个新的商业模式。因为跟传统广告部一样,传统广告不管怎么样做,很多时候业务都是跑出来的。你因为能跟小冰变成好友的聊天,它像你的姐妹淘、兄弟淘,所以你会听取它的建议。

  所以将来会变成全新取代搜索的方式,以后是对话的人机界面,你会觉得有一个东西可以跟你聊各种事情,同时也可以跟不同的网站或者电商合作,能够把这些东西在很自然的情况下,有点像今天的社交网络你问朋友的意见一样,来做这样一个新的界面。

  接下来第二个A就是所有的智能必须要能学习,要能适应,就是智商。智商可能是量人智力最好的工具和测试,智商测验往往有一个时间,你不管怎么练习都会在相应固定的区段里面。30%—40%的测试是有关于语言的,比如说A对B的关系,就像C对另外一个的关系。章节对于书的关系就好像节目对哪一个的关系,你找一个跟某个字最接近的,你找一个反义字。在这种测试里面,随着年龄的增长,我们对语言的应用会变得更好,还有你的教育程度,随着年纪成长你的平均分会高一点,你的教育水平越高平均分也会越高。

  那么人工智能大家知道深度学习,深度学习里面拿来做自然语言,有一个东西就是我们到网上把所有的文本找来,每个字的分布把它弄到多维的空间里,每个字在多维空间里是一个点,两个字如果意思很接近,他们两个点就很接近。不但是这样,比如说巴黎是法国的首都,北京是中国的首都,这时候你拿法国去减巴黎,它的距离就会跟中国减北京的距离很接近,所以这是用深度学习,在自然语言当中很重要的突破,很多公司和学校都有做类似的研究。

  大家可以知道,假如有这样的东西的话我们解刚才的测试就得心应手了,但是因为语言还是很不一样的,做出来的结果还是不怎么好,那就要以下三个工作。

  第一个工作是多意词,BANK可以是银行,也可以是伙伴。中国的面,也可以说是人的颜面,也可以说是吃一碗面。就可以做成一个多模型,用这个模型去代表它,你做出来的东西会更准。

  第二个是词类,可以当动词,当名词,也可以当形容词,你就把它分散开来,它的数据不够多,我们可以集中起来,这样做会更好。

  第三个还有一些更高语意的东西,像我刚才讲的首都,可能有些国家比较小,他在网上出现的次数就很少。比如说我们有百科全书,我们知道非洲某一个国家首都就是这个地点,虽然在网上出现的少,我们可以把它当做额外训练的数据做的更好。发现成绩还真的不错,我们不能说我们机器已经超过最聪明的人了,但是我们已经大于平均值了。

  其实可以大胆的预测,像这种选择题,你又有足够量的数据。我们人去考语言,你真的要背很多单字,而且你还要知道这个单字怎么用。像学英,说这两个字是同义词,其实没有两个词句完全一样的。如果两个词完全同义就不需要有另外一个了,所以用法很重要。我们不可能看所有的文章,但是机器可以,所以我觉得很有希望机器就像下棋一样,很有机会打败人,包括这个测试。

  最后一个就是环境,这里是影像,不但可以辨认出里面有什么东西,比如说这里是草地,是房子,还可以抓出它的边缘在哪里。像刚才李总讲的自动驾车、无人机,能辨认出这个就可以做很多应用,避免在安全上,在拍东西的时候,比如说你有运动相继,有无人飞机,主要是拍人,我就跟着人,不用拍其他的东西。

  当我们越来越多的传感器,越来越的物联网,可以让它无所不在,所以第三个A是无所不在。我们今天说智能车、智能手机还是有一个概念,事实上未来的世界应该是不管到哪里,手机也好,旁边有摄像头,各种各样的东西,智能东西透过小冰、小娜这样的助手就可以了,是无所不在的。

  讲完了三个A,到底未来人工智能的发展是什么样的?在这里我想跟大家分享我个人怎么看未来的发展。

  首先有几个词,人工智能、机器学习、大数据,我觉得这三件事情并不完全一样,但是95%是同样的事情。为什么呢?今天我们所讲的人工智能,几乎可以保证做任何人工智能的事情都是用大数据的方法,机器学习的方法,这也是为什么人工智能能发展的这么快。你给他数据他就可以学习,不管是深度学习还是其他学习方法,他都可以做出一个系统,可以做的很好,很智能的东西,数据永远不会嫌多。但是这跟人的智能还是有点不同的,人的智能事实上很多时候我们没有大数据,你们想想看,人的智能很多是没有大数据的情况下,我必须要做一个判断,然后往前走。

  你是国家领导人也好,你要买卖股票也好,你不可能有所有的数据。这时候跟人的智能不太相同,人不可能读所有的文章,你读了这些文章就要做一些决定。机器可以读所有的文章,它要看什么东西必须是人写程序,一个算法。目前一个新的职业叫做数据科学家,数据分析师,实际上今天所有的公司,包括刚才大家听到李总讲的沃尔沃,里面有几百个计算机。今天几乎所有这些,包括高科技公司,可能有一半的人所招聘的都是做数据分析的工作,学校也是成立了很多数据相关的课程。什么叫数据分析师,数据科学家呢?他懂算法,也会编程,会看数据,看了数据以后从数据里面找到关键点,然后怎么用最好的算法来解决问题。

  事实上你如果看全人类文明的发展,其实就是一个反馈回路。什么叫反馈回路?今天我有一个想法,我有一个算法,我有一个工具,我有一个假设,我就去做实验,我就收集实际的数据,从数据里面来洞察、理解,来知道它的关键点,来想下一个实验做什么,下一个产品是什么。不管你是做传统产业还是什么,每个东西都是这样的反馈回路。今天所谓的大数据,所谓的机器学习,所谓的人工智能,都是能够帮你,能够更多的把这些数据传起来,你每一次回路,你的东西应该能进步一些。以前我们可能要花数十年,百年,才能把一个回路给转起来,今天我们可以很快地转这个回路。以前做一个回路的时间我们可以做一百次回路,那我们的进步是不得了的。

  回过头来,我们到底应不应该担心机器呢?机器这么聪明,机器这么快,又不会累。那什么叫智能?我觉得智能起码有下面四种定义。

  第一个定义是功能,功能是毫无疑问的,今天这辆车多少匹马力,多少气缸,能跑多快,0—60公里能够跑3秒或者6秒,这叫功能。计算机有多少内存,能算多快,功能大家都没有争议。

  智能是随时间而定的,我记得70年代那时候的智能是什么?当电视第一次有摇控器的时候,那个时候就叫智能电视。因为你不用到前面去就可以转台了,实际上摇控器改变了我们的形态。以前你要到前面转台,转台的几率一定没有那么多,更没有“沙发土豆”,当年的智能电视是这个定义,今天的智能电视不用我讲你也知道了,我相信20年后的智能电视又有改变。那计算机、算盘,当时我很羡慕会打算盘的人,包括开根号,谁能开的很快,小时候还有这样的算术比赛,今天已经没有这样的算术比赛了。这跟下棋一样,今天人已经下不过机器了在象棋方面,所以象棋也是一样,相当于看谁能下的比较深,有点跟开根号一样,所以智能随时间而改变。

  智力又更高一层了,就是创造力,人最宝贵的东西就是创造力。刚才讲的那些所谓智能,都是人想好的算法叫机器去做,人都不知道我们下一个创造力来自什么。我给你个选择题有五个答案,我说都不是这个,是另外的东西,这才是创造力,创造力绝对不是选择题。

  智慧,大师级的,历史上有这么多有智慧的人讲的东西,能启发我们,能激励我们的,这个我觉得是更高一层的,计算机远远没有达到这种程度。

  那计算机到底是什么?图灵很了不起的就是把计算机的理论奠定了,而且还没有把计算机做出来以前,他就说所有的有算法的东西都可以拿到计算机来执行。计算机相当于我们的左脑,做重复性的计算。比如说开根号,下棋,我想下这一步你就会下哪几步,把算法算好。包括深度学习,都是我们人想出一个算法叫计算执行,今天我没有看到任何一个情形出来,你做一个算法他可以想出另外一个新的算法解决问题,因为人都不知道下一个问题怎么解,你怎么可能让计算机去做呢?

  即使是这样,计算机+大数据是非常非常有能量的,原因很简单。到底信息是不是智能?我觉得有两个观点。我们说一个人博学多文是一个例子,还有一个反例就是内线交易。内线交易是违法的,谁不想赚钱呢?你要投资股票,今天有一个人,张三有内线的资料,他不应该用的时候用了,这样的人是要吃法律官司的,我们不会认为这个人比较聪明。但的确他有这个信息我没有,他一定会做出更好的判断,所以信息到底是不是更好的智能?这是可以辩论的。

  刚才提到了很多问题,其实人的算法加上计算机,我们不能看全世界所有的文章,我们可以让计算机去看。但是计算机去看不是扫过弄进来而已,没有意义,我们必须要有一个算法,叫计算机看文章的时候去针对什么东西。比如说今天很多人做投资,他可以写一个程序,他说我去看文章的时候看哪些东西,让计算机去看,把全世界所有的文章,针对每个公司的文章看一遍,看完之后得到一些分析,根据这个分析我做一个决定该怎么买卖股票。但是别忘了,那个算法还是来自我们,所以我们跟计算机的关系有点像左脑和大脑的关系,计算机是最好的左脑。那我们的右脑是什么?我们的想象力、算法,左脑和有脑搭配,就可以有更多的小心求证和创新。

  最后人工智能危不危险?有很多人说人工智能非常危险,比核子武器还要危险,甚至有人说临界特点。我认为这些担忧完全没有必要,因为计算机其实就是一个工具,它是最好的左脑。我们把算法交给它,它不会喊累,就一直算,根号算到13700位都可以算,计算机就是这么一个东西。要说意识,人有意识,我知道我为什么讲这些东西,我也知道你怎么看我做这件事情,就是笛卡尔说的我思故我在,计算机是没有意识的。小冰在做一些有意识的东西,但是这都是我们写好的,故意不告诉你答案,吊吊你,这是我们做好的程序。

  如果有人把计算机做一些坏的意识,那你要怪后面的那个人,大家不会认为飞机是不好的东西,但是也有人拿飞机做坏事,但是你怪的是用飞机做坏事的人,不是怪飞机。所以计算机不可能有意识要消灭人类的,如果有那一天,一定是有一个人把计算机设置成那个样子。拿无人车做一个例子,今天做无人车的都是想怎么能避免怎么不撞到人,那你同样会问,如果我做一个车看到人就撞,一定不会比避免希望撞人更难,那为什么没有人做这样的事情?因为良知嘛。如果有一辆车看到人就撞,我们怪的一定是做车的人,而不是怪汽车。

  所有的机器我们希望都是可控的,没有人希望造一个不可控的机器人。那么计算到底有没有危险呢?唯一一个我觉得是将来我们可能要避免的危险,就是大bug。所有的计算机里面都会有bug,bug会产生一些我们无法预期的后果。如果bug遇到人就伤害,这几乎是零,bug会产生不好的解决,但是我们可以避免。1950年代计算机还没开始的时候,《时代》杂志就说,人们不怕做出大卡车这样的东西,但是我们怕做出一个比我们聪明的人,到现在60年过去了,我们还在担心这个问题,我觉得没有必要。人的良知可以让世界很和谐,人类加机器一定会帮我们做出人类本身自己不能做的很多事情的,像飞机一样。所以我认为人类+机器是超人的关系,用英文来讲就是增强智能。

  A.I让我们加上机器,做出我们做不到的事情,是超人的关系,谢谢大家!

相关专题 2015 C+峰会专题

标签: C+峰会洪小文

推荐阅读
聚焦
关闭评论
原创策划

新闻晚报

诺基亚收购阿朗获股东批准

诺基亚收购阿朗获股东批准

在这笔交易后,诺基亚的规模将扩大一倍,成为全球最大的网络设备商之一。 [详细]

创业训练营导师说

吴世春:“疯投”背后逻辑

吴世春:“疯投”背后逻辑

资本非常理性,每次看似不可思议的“疯投”背后,都有严密的逻辑判断和分析。 [详细]